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数据 科学 是 一 门 激动 人 心 的 学 科 ， 它 可 以 将 原始 数据 转化 为 认识 、 见 解 和 知识 。 本 书 的 目 
标 是 帮助 你 学 习 使 用 R 语言 中 最 重要 的 数据 科学 工具 。 读 完 本 书后 ， 你 将 掌握 R 语言 的 精 
华 ， 并 能 够 熟练 使 用 多 种 工具 来 解决 各 种 数据 科学 难题 。 


你 将 学 到 什么 


数据 科学 是 一 个 极其 广阔 的 领域 ， 仅 靠 一 本 书 是 不 可 能 登 党 入 室 的 。 本 书 的 目标 是 教会 你 
使 用 最 重要 的 数据 科学 工具 。 在 一 个 典型 的 数据 科学 项 目 中 ， 需 要 的 工具 模型 大 体 如 下 图 
所 示 。 











可 视 化 
Sa 


导入 一 > 整理 一 > ”转换 ) 一 一 > 沟通 
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理解 





编程 


首先 ， 你 必须 将 数据 导入 R。 这 实际 上 就 是 读 取 保存 在 文件 、 数 据 库 或 Web API 中 的 数 
据 ， 再 加 载 到 R 的 数据 框 中 。 如 果 不 能 将 数据 导入 R， 那 么 数据 科学 就 根本 无 从 谈 起 。 
导入 数据 后 ， 就 应 该 对 数据 进行 整理 。 数 据 整 理 就 是 将 数据 保存 为 一 致 的 形式 ， 以 满足 其 
所 在 数据 集 在 语义 上 的 要 求 。 简 而 言 之 ， 如 有 果 数 据 是 整洁 的 ， 那 么 每 列 都 是 一 个 变量 ， 每 
行 都 是 一 个 观测 。 整 洁 的 数据 非常 重要 ， 因 为 一 致 的 数据 结构 可 以 让 你 将 工作 重点 放 在 与 
数据 有 关 的 问题 上 ， 而 不 用 再 费 尽心 思 地 将 数据 转换 为 各 种 形式 以 适应 不 同 的 函数 。 

一 旦 拥有 了 整洁 的 数据 ， 通 常 下 一 步 就 是 对 数据 进行 转换 。 数 据 转 换 包括 选取 出 感 兴 趣 的 
观测 〈 如 居住 在 某 个 城市 里 的 所 有 人 ， 或 者 去 年 的 所 有 数据 )、 使 用 现 有 变量 创建 新 变量 
(如 根据 距离 和 时 间 计 算出 速度 )， 以 及 计算 一 些 摘 要 统计 量 (如 计数 或 均值 )。 数 据 整 理 
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和 数据 转换 统称 为 数据 处 理 。 

一 旦 使 用 需要 的 变量 完成 了 数据 整理 ， 那 么 生成 知识 的 方式 主要 有 两 种 : 可 视 化 与 建 模 。 
这 两 种 方式 各 有 利 浆 ， 相 辅 相 成 。 因 此 ， 所 有 实际 的 数据 分 析 过 程 都 要 在 这 两 种 方式 间 多 
次 重复 。 

可 视 化 本 质 上 是 人 类 活动 。 良 好 的 可 视 化 会 让 你 发 现 意 料 之 外 的 现象 ， 或 对 数据 提出 新 的 
问题 。 你 还 可 以 从 良好 的 可 视 化 中 意识 到 自己 提出 了 错误 的 问题 ， 或 者 需要 收集 不 同 的 数 
据 。 可 视 化 能 够 带 给 你 惊喜 ， 但 不 要 期 望 过 高 ， 因 为 毕 竞 还 是 需要 人 来 对 其 进行 解释 。 
模型 是 弥补 可 视 化 缺点 的 一 种 工具 。 如 果 已 经 将 问题 定义 得 足够 清晰 ， 那 么 你 就 可 以 使 用 
一 个 模型 来 回答 问题 。 因 为 模型 本 质 上 是 一 种 数学 工具 或 计算 工具 ， 所 以 它们 的 扩展 性 一 
般 非 常 好 。 即 使 扩展 性 出 现 问题 ， 购 买 更 多 计算 机 也 比 雇用 更 多 聪明 的 人 便宜 ! 但 是 每 个 
模型 都 有 前 提 假 设 ， 而 且 模 型 本 身 不 会 对 自己 的 前 提 假 设 提出 疑问 ， 这 就 意味 着 模型 本 质 
上 不 能 给 你 带 来 惊喜 。 

数据 科学 的 最 后 一 个 步骤 就 是 沟通 。 对 于 任何 数据 分 析 项 目 来 说 ， 沟 通 绝对 是 一 个 极其 重 
要 的 环节 。 如 果 不 能 与 他 人 交流 分 析 结 果 ， 那 么 不 管 模型 和 可 视 化 让 你 对 数据 理解 得 多 么 
透彻 ， 这 都 是 没有 任何 实际 意义 的 。 


围绕 在 这 些 技能 之 外 的 是 编程 。 编 程 是 贯穿 数据 科学 项 目 各 个 环节 的 一 项 技能 。 数 据 科 学 
家 不 一 定 是 编程 专家 ， 但 掌握 更 多 的 编程 技能 总 是 有 好 处 的 ， 因 为 这 样 你 就 能 够 对 日 常任 
务 进行 自动 处 理 ， 并 且 非 常 轻松 地 解决 新 的 问题 。 


你 将 在 所 有 的 数据 科学 项 目 中 用 到 这 些 工 具 ， 但 对 于 多 数 项 目 来 说 ， 这 些 工 具 还 不 够 。 这 
大 致 符合 80/20 定律 : 你 可 以 使 用 从 本 书 中 学 到 的 工具 来 解决 每 个 项 目 中 80% 的 问题 ,但 
你 还 需要 其 他 工具 来 解决 其 余 20% 的 问题 。 我 们 将 在 本 书 中 为 你 提供 资源 ， 让 你 能 够 学 到 
更 多 的 技能 。 


本 书 的 组 织 结构 


前 面 对 数据 科学 工具 的 描述 大 致 是 按照 我 们 在 分 析 中 使 用 它们 的 顺序 来 组 织 的 (尽管 你 肯 
定 会 多 次 使 用 它们 )。 然 而 ， 根 据 我 们 的 经 验 ， 这 并 不 是 学 习 它 们 的 最 佳 方式 ， 有 具体 原 
如 下 。 


。 从 数据 导入 和 数据 整理 开始 学 习 并 不 是 最 佳 方式 ， 因 为 对 于 导入 和 整理 数据 来 说 ，80% 
的 时 间 是 乏味 和 无 聊 的 ,其 余 20% 的 时 间 则 是 诡异 和 令 人 诅 霄 的。 在 学 习 一 项 新 技术 时 ， 
这 绝对 是 一 个 糟糕 的 开始 ! 相反 ， 我 们 将 从 数据 可 视 化 和 数据 转换 开始 ， 此 时 的 数据 已 
经 导入 并 且 是 整理 完毕 的 。 这 样 一 来 ， 当 导入 和 整理 自己 的 数据 时 ， 你 就 会 始终 保持 高 
昂 的 斗志 ， 因 为 你 知道 这 种 痛苦 终 有 回报 。 

。 有 些 主题 最 好 结合 其 他 工具 来 解释 。 例 如 ， 如 果 你 已 经 了 解 可 视 化 、 数 据 整 理 和 编程 ， 
那么 我 们 认为 你 会 更 容易 理解 模型 是 如 何 工作 的 。 

。 编程 工具 本 身 不 一 定 很 有 趣 ， 但 它们 确实 可 以 帮助 你 解决 更 多 非常 困难 的 问题 。 在 本 书 
的 中 间 部 分 ， 我 们 会 介绍 一 些 编程 工具 ， 它 们 可 以 与 数据 科学 工具 结合 起 来 以 解决 非常 
有 趣 的 建 模 问 题 。 
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我 们 尽量 在 每 一 章 中 使 用 同一 种 模式 ， 先 给 出 一 些 引 人 入 胜 的 示例 ， 以 便 你 大 体 了 解 这 一 章 
的 内 容 ， 然 后 再 深入 细节 。 本 书 的 每 一 节 都 配 有 习题 ， 以 帮助 你 实践 所 学 到 的 知识 。 虽 然 跳 
过 这 些 习题 是 个 非常 有 诱惑 力 的 想法 ， 但 使 用 真实 问题 进行 练习 绝对 是 最 好 的 学 习 方式 。 


本 书 未 包含 的 内 容 


本 书 并 未 涉及 一 些 重要 主题 。 我 们 次 信 ， 重 要 的 是 将 注意 力 坚 定 地 集中 在 最 基本 的 内 容 上 ， 
这 样 你 就 可 以 尽快 入 门 并 开展 实际 工作 。 这 也 就 是 说 ， 本 书 不 会 涵盖 每 一 个 重要 主题 。 


大 数据 

本 书 主 要 讨论 那些 小 规模 的 、 能 够 驻 留 在 内 存 中 的 数据 集 。 这 是 开始 学 习 数 据 科 学 的 正确 
方式 ， 因 为 只 有 处 理 过 小 数据 集 ， 你 才能 处 理 大 数据 集 。 你 从 本 书 中 学 到 的 工具 可 以 轻松 
地 处 理 几 百 兆 字 节 的 数据 ， 处 理 1-2 GB 的 数据 也 不 会 有 什么 大 问题 。 如 果 你 的 日 常 工作 
是 处 理 更 大 的 数据 (如 10~100 GB)， 那 么 你 应 该 更 多 地 学 习 一 下 data.table (https://github. 
com/Rdatatable/data.table) 。 本 书 不 会 介绍 data.table， 因 为 它 的 界面 太 过 简 话 ， 几 乎 没有 语 
言 提 示 ， 这 使 得 学 习 起 来 很 困难 。 但 是 如 果 你 需要 处 理 大 数据 ， 为 了 获得 性 能 上 的 回报 ， 
多 付出 一 些 努 力 来 学 习 它 还 是 值得 的 。 


如 果 你 的 数据 比 这 还 大 ， 那 么 就 需要 仔细 思考 一 下 了 ， 这 个 大 数据 问题 是 否 其 实 就 是 一 个 
小 数据 问题 。 虽 然 整体 数据 非常 大 ， 但 回答 特定 问题 所 需要 的 数据 通常 较 小 。 你 可 以 找 出 
一 个 子 集 、 子 样本 或 者 摘要 数据 ， 该 数据 既 适 合 在 内 存 中 处 理 ， 又 可 以 回答 你 感 兴 趣 的 问 
题 。 此 时 的 挑 成 就 是 如 何 找到 合适 的 小 数据 ， 这 通常 需要 多 次 进 代 。 


另外 一 种 可 能 是 ， 你 的 大 数据 问题 实际 上 就 是 大 量 的 小 数据 问题 。 每 一 个 问题 都 可 以 在 
内 存 中 处 理 ， 但 你 有 数 百 万 个 这 样 的 问题 。 举 例 来 说 ， 假 设 你 想 为 数据 集中 的 每 个 人 
都 拟 合 一 个 模型 。 如 果 只 有 10 人 或 100 人 ， 那 这 是 小 全 一 碟 ， 但 如 果 有 100 万 人 ， 情 
况 就 完全 不 同 了 。 好 在 每 个 问题 都 是 独立 于 其 他 问题 的 (这 种 情况 有 时 称 为 高 度 并 行 ， 
embarrassingly parallel) ， 因 此 你 只 需要 一 个 可 以 将 不 同 数据 集 发 送 到 不 同 计算 机 上 进行 处 
理 的 系统 (如 Hadoop 或 Spark) 即 可 。 如 果 已 经 知道 如 何 使 用 本 书 中 介绍 的 工具 来 解决 独 
立 子 集 的 问题 ， 那 么 你 就 可 以 学 习 一 下 新 的 工具 (比如 sparklyr、rhipe 和 ddr) 来 解决 整 
个 数据 集 的 问题 。 


Python、Julia 以 及 类 似 的 语言 

在 本 书 中 ， 你 不 会 学 到 有 关 Python. Julia 以 及 其 他 用 于 数据 科学 的 编程 语言 的 任何 内 容 。 
这 并 不 是 因为 我 们 认为 这 些 工具 不 好 ， 它 们 都 很 不 错 ! 实际 上 ， 多 数 数据 科学 团队 都 会 使 
用 多 种 语言 ， 至 少 会 同时 使 用 R 和 Python。 

但 是 ， 我 们 认为 最 好 每 次 只 学 习 并 精通 一 种 工具 。 如 果 你 潍 心 研究 一 种 工具 ， 那 么 会 比 同 
时 泛泛 地 学 习 多 个 工具 掌握 得 更 快 。 这 并 不 是 说 你 只 应 该 精通 一 种 工具 ， 而 是 说 每 次 专注 
于 一 件 事情 时 ， 通 常 你 会 进步 得 更 快 。 在 整个 职业 生涯 中 ， 你 都 应 该 努力 学 习 新 事物 ， 但 
是 一 定 要 在 充分 理解 原 有 知识 后 ， 再 去 学 习 感 兴趣 的 新 知识 。 

















































































































































































































我 们 认为 R 是 你 开始 数据 科学 旅程 的 一 个 非常 好 的 起 点 ， 因 为 它 从 根本 上 说 就 是 一 种 用 来 
支持 数据 科学 的 环境 。R 不 仅仅 是 一 门 编程 语言 ， 它 还 是 进行 数据 科学 工作 的 一 种 交互 式 
环境 。 为 了 支持 交互 性 ，R 比 多 数 同类 语言 灵活 得 多 。 虽 然 会 导致 一 些 缺 点 ， 但 这 种 灵活 
性 的 一 大 好 处 是 ， 可 以 非常 容易 地 为 数据 科学 过 程 中 的 某 些 环节 量 身 定制 语法 。 这 些微 型 
语言 有 助 于 你 从 数据 科学 家 的 角度 来 思考 问题 ， 还 可 以 在 你 的 大 脑 和 计算 机 之 间 建 立波 帕 
的 交流 方式 。 


非 矩形 数据 

本 书 仅 关注 矩形 数据 。 和 矩形 数据 是 值 的 集合 ， 集 合 中 的 每 个 值 都 与 一 个 变量 和 一 个 观测 相 
关 。 很 多 数据 集 天 然 地 不 符合 这 种 规范 ， 比 如 图 像 、 声 音 、 树 结构 和 文本 。 但 是 矩形 数据 杠 
架 在 科技 与 工业 领域 是 非常 普遍 的 。 我 们 认为 它 是 开始 数据 科学 旅途 的 一 个 非常 好 的 起 点 。 


假设 验证 

数据 分 析 可 以 分 为 两 类 : 假设 生成 和 假设 验证 (有 时 称 为 验证 性 分 析 )。 无 须 掩 饰 ， 本 书 

的 重点 就 在 于 假设 生成 ， 或 者 说 是 数据 探索 。 我 们 将 对 数据 进行 深入 研究 ， 并 结合 专业 知 

识 生成 多 种 有 趣 的 假设 来 帮助 你 对 数据 的 行为 方式 作出 解释 。 你 可 以 对 这 些 假设 进行 非 正 

式 的 评估 ， 和 凭借 自己 的 怀疑 精神 从 多 个 方面 向 数据 发 起 挑战 。 

假设 验证 与 假设 生成 是 互补 的 。 假 设 验证 比较 困难 ， 原 因 如 下 。 

。 你 需要 一 个 精确 的 数学 模型 来 生成 可 证 伪 的 预测 ， 这 通常 需要 深厚 的 统计 学 修养 。 

。 为 了 验证 假设 ， 每 个 观测 只 能 使 用 一 次 。 一 旦 使 用 观测 的 次 数 超过 了 一 次 ， 那 么 就 回 到 
了 探索 性 分 析 。 这 意味 着 ， 若 要 进行 假设 验证 ， 你 需要 “预先 注册 ”( 事 先 拟定 好 ) É 
己 的 分 析 计 划 ， 而 且 看 到 数据 后 也 不 能 改变 计划 。 在 本 书 的 第 四 部 分 中 ， 我 们 将 讨论 一 
些 相关 的 策略 ， 你 可 以 使 用 它们 让 假设 验证 变 得 更 容易 。 

经 常 有 人 认为 建 模 是 用 来 进行 假设 验证 的 工具 ， 而 可 视 化 是 用 来 进行 假设 生成 的 工具 。 这 

种 简单 的 二 分 法 是 错误 的 : 模型 经 常用 于 数据 探索 ， 只 需 稍 作 处 理 ， 可 视 化 也 可 以 用 来 进 

行 假 设 验证 。 核 心 区 别 在 于 你 使 用 每 个 观测 的 频率 : 如 果 只 用 一 次 ， 那 么 就 是 假设 验证 ; 

如 有 果 多 于 一 次 ， 那 么 就 是 数据 探索 。 


准备 工作 

为 了 最 有 效 地 利用 本 书 ， 我 们 对 你 的 知识 结构 做 了 一 些 假 设 。 你 应 该 具有 一 定 的 数学 基 
础 ， 如 果 有 一 些 编程 经 验 也 会 有 所 帮助 。 如 果 从 来 没有 编写 过 程序 ， 那 么 你 应 该 学 习 一 下 
Garrett 所 著 的 《R 语言 入 门 与 实践 》'， 它 可 以 作为 本 书 的 有 益 补 充 。 

为 了 运行 本 书 中 的 代码 ， 你 需要 4 个 工具 : R、RStudio、 一 个 称 为 tidyverse 的 R 包 集 合 ， 
以 及 另外 几 个 R 包 。 包 是 可 重用 R 代码 的 基本 单位 ， 它 们 包括 可 重用 的 函数 、 描 述 函 数 使 
用 方法 的 文档 以 及 示例 数据 。 






















































































注 1: 有 关 本 书 的 详细 信息 ， 请 参见 图 灵 社 区 : http://www.ituring.com.cn/book/1540。 








一 一 编者 注 





R 


可 以 在 CRAN (comprehensive R archive network) 下 载 R。CRAN 由 分 布 在 世界 各 地 的 很 
多 镜像 服务 器 组 成 ， 用 于 分 发 RR 和 R 包 。 不 要 尝试 选择 离 你 近 的 服务 器 ， 而 应 该 使 用 云 镜 
像 : https://cloud.r-project.org， 它 会 自动 找 出 离 你 最 近 的 服务 器 。 

R 的 主 版 本 一 年 发 布 一 次 ， 每 年 也 会 发 布 两 三 个 次 版 本 ， 因 此 你 应 该 定期 更 新 。 更 新 R 有 
一 点 麻烦 ， 特 别 是 更 新 主 版 本 会 要 求 你 重新 安装 所 有 的 R 包 ， 但 是 如 果 不 更 新 的 话 ， 有 麻烦 
会 更 多 。 


























RStudio 


RStudio 是 用 于 R 编程 的 一 种 集成 开发 环境 (integrated development environment，IDE)。 你 可 以 
从 http://www.rstudio.com/download 下 载 并 安装 。RStudio 每 年 会 更 新 多 次 。 当 有 新 版 本 时 ， 
RStudio 会 进行 通知 。 应 该 定期 更 新 ， 这 样 你 就 可 以 使 用 其 最 新 、 最 强大 的 功能 。 为 了 运 
行 本 书 中 的 代码 ， 请 确认 安装 了 RStudio 1.0.0。 


启动 RStudio 后 ， 你 会 看 到 界面 有 以 下 两 个 关键 区 域 。 























现在 ， 你 只 要 知道 可 以 在 控制 台 窗 格 中 输入 R 代码 ， 然 后 按 回 车 键 运行 就 够 了 。 在 学 习 本 
书 的 过 程 中 ， 你 会 学 到 RStudio 的 更 多 使 用 方法 。 





tidyverse 

你 还 需要 安装 一 些 R 包 。R 包 是 函数 、 数 据 和 文档 的 集合 ， 是 对 R 基础 功能 的 扩展 。 只 
有 学 会 如 何 使 用 R 包 ， 才 能 真正 掌握 R 语言 的 精华 。 你 在 本 书 中 学 习 的 大 多 数 R 包 都 是 
tidyverse 的 一 部 分 。tidyverse 中 的 R 包 有 着 同样 的 数据 处 理 与 编程 理念 ， 它 们 的 设计 从 根 
本 上 就 是 为 了 协同 工作 。 

你 可 以 用 一 行 代码 完整 地 安装 tidyverse: 


install.packages("tidyverse") 

















在 计算 机 上 启动 RStudio 并 在 控制 台中 输入 这 行 代码 ， 然 后 按 回 车 键 来 运行 。R 会 从 
CRAN 下 载 这 个 包 并 将 其 安装 在 你 的 计算 机 上 。 如 果 安 装 有 问题 ， 请 先 确认 你 连接 了 互联 
网 ， 再 确认 https://cloud.r-project.org 没有 被 你 的 防火 墙 或 代理 服务 器 阻拦 。 


如 果 没 有 使 用 Library() 函数 加 载 R 包 ， 那 么 你 就 不 能 使 用 其 中 的 函数 、 对 象 和 帮助 文件 。 
一 旦 R 包 安 装 完成 ， 你 就 可 以 使 用 Library() 函数 进行 加 载 : 

library(tidyverse) 

#> Loading tidyverse: ggplot2 

#> Loading tidyverse: tibble 

#> Loading tidyverse: readr 

#> Loading tidyverse: purrr 

#> Loading tidyverse: dplyr 

#> Conflicts with tidy packages -------------------------------- 

#> ftlter(): dplyr, stats 

#> lag(): dplyr, stats 
以 上 结果 表明 ，tidyverse 正在 加 载 R 包 ggplot2、tibble、readr、purrr 和 dplyr。 这 些 包 被 
视 为 tidyverse 的 核心 ， 因 为 几乎 在 所 有 的 分 析 中 都 会 用 到 它们 。 


tidyverse 中 的 包 修 改 得 相当 频繁 。 你 可 以 通过 运行 tidyverse_update() 函数 来 检查 是 否 有 
更 新 ， 并 选择 是 否 进行 更 新 。 


其 他 包 

还 有 很 多 优秀 的 R 包 没 有 包含 在 tidyverse 中 ， 这 是 因为 它们 解决 的 是 其 他 领域 中 的 问题 
或 者 它们 遵循 的 是 另外 一 套 基 本 设计 原则 。 它 们 不 分 优 劣 ， 只 是 不 同 而 已 。 换 句 话说， 与 
tidyverse 互补 的 不 是 messyverse， 而 是 其 他 所 有 相互 关联 的 R 包 。 在 使 用 R 完成 越 来 越 多 
的 数据 科学 项 目的 过 程 中 ， 你 会 不 断 发 现 新 的 包 ， 也 会 不 断 更 新 对 数据 的 认识 。 


1 gpm ` 
运行 R 代 码 
前 面 展 示 了 运行 R 代码 的 几 个 示例 。 本 书 以 如 下 方式 展示 及 代码 : 


4 £ 2 
#> [1] 3 


如 果 在 本 地 控制 台中 运行 同样 的 代码 ， 将 得 到 如 下 结果 : 
> 1 + 2 
[1] 3 
这 里 有 两 处 主要 区 别 。 在 控制 台中 ， 需 要 在 > (提示 符 ) 后 面 输入 代码 ， 但 本 书 不 显示 提 
示 符 。 书 中 的 输出 结果 被 # 注释 掉 了 ， 但 是 控制 台中 的 输出 结果 则 直接 显示 在 代码 后 面 。 
这 样 一 来 ， 如 果 你 阅读 的 是 本 书 电子 版 ， 你 就 可 以 轻松 地 将 代码 从 书 中 复制 到 控制 台 
全 书 使 用 一 致 的 规则 来 表示 代码 。 


° 函数 与 代码 的 字体 相同 ， 并 且 共 后 有 圆 括号 ， 如 sum() 或 mean()。 
° 其 他 R 对 象 (比如 数据 或 函数 参数 ) 也 使 用 代码 字体 ,但 其 后 没有 圆 括号 ,如 估 ghts 或 x。 
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。 如 果 想 要 明确 指出 对 象 来 自 于 哪个 R 包 ， 那 么 我 们 会 在 包 的 名 称 后 面 加 两 个 冒号 ， 如 
dplyr::mutate() 或 nycflights13::flights; R 代码 也 支持 这 种 形式 。 


5 — < S 

获取 帮助 及 更 多 学 习 资 源 

本 书 并 非 知 识 孤 岛 ， 单 单 利 用 一 种 资源 是 无 法 精通 R 语言 的 。 当 开始 将 本 书 介 绍 的 技术 应 

用 于 自己 的 数据 时 ， 你 很 快 就 会 发 现 本 书 并 未 解答 所 有 问题 。 本 证 将 介绍 几 个 获取 帮助 的 

小 技巧 ， 以 帮助 你 持续 地 学 习 。 

如 果 遇 到 问题 ， 首 先 应 该 求助 于 Google。 通 常 来 说 ， 在 查询 内 容 时 加 上 一 个 “R”， 就 足以 

得 到 与 R 相关 的 结果 。 如 果 查 不 到 有 用 的 结果 ， 这 意味 着 目前 还 没有 特定 的 R 解决 方案 。 

Google 特别 适合 查询 错误 消息 。 如 果 收 到 一 条 错误 消息 ， 但 根本 不 知道 其 含义 ， 那 就 用 

Google 搜索 一 下 吧 ! 很 可 能 有 人 遇 到 过 这 种 错误 ， 而 答案 就 在 网 上 。( 如 果 错 误 消 息 不 是 

英文 ， 可 以 运行 Sys .setenv(LANGUAGE = "en")， 接 着 重新 运行 代码 ， 使 用 英文 错误 消息 进 

行 查询 更 可 能 获得 帮助 。) 

如 果 Google 没有 奏效 ， 那 么 可 以 试 试 Stack Overflow。 先 花 点 时 间 搜 索 一 下 现成 的 答案 ， 

使 用 [R] 可 以 将 搜索 范围 限定 在 与 R 相关 的 问题 和 答案 中 。 如 果 没 有 发 现任 何 有 用 的 内 

容 ， 那 么 就 准备 一 个 最 简单 的 可 重 现实 例 ， 即 reprex。 良 好 的 reprex 让 你 更 容易 从 他 人 那 

里 获得 帮助 ， 而 且 在 准备 reprex 时 ， 你 往往 自己 就 能 发 现 问题 所 在 。 

reprex 的 准备 工作 应 该 包括 3 项 内 容 : 所 需 R 包 、 数 据 和 代码 。 

° 应 该 在 脚本 开头 就 加 载 R 包 ， 这 样 就 会 很 容易 知道 reprex 都 需要 哪些 R 包 。 应 该 趁机 
检查 自己 是 否 使 用 了 每 个 R 包 的 最 新 版 本 ， 你 可 能 会 发 现 ， 当 安装 了 某 个 R 包 的 最 新 
版 本 后 ， 问 题 就 解决 了 。 对 于 tidyverse 中 的 R 包 来 说 ， 检 查 版 本 的 最 简单 方式 是 运行 
tidyverse_update() 国 数 。 

° 在 reprex 中 包含 数据 的 最 简单 方法 是 使 用 dput() 函数 生成 重建 数据 的 R 代码 。 例 如 ， 
要 想 在 R 中 重建 mtcars 数据 集 ， 可 以 遵循 以 下 步骤 ， 


(1) 在 R 中 运行 dput(mtcars); 
(2) 复制 输出 结果 ; 
(3) 在 可 重 现 脚本 中 输入 mtcars <-， 然 后 粘贴 输出 结果 。 
应 该 努力 找 出 依然 能 够 反映 问题 的 数据 最 小 子 集 。 
° 花 一 点 时 间 确 保 别 人 可 以 轻松 理解 你 的 代码 : 
- 人 确保 使 用 了 空格 ， 并 且 变 量 名 简明 扼要 ， 
- 用 注释 来 说 明 你 的 问题 所 在 ，; 
- 尽 最 大 努力 去 除 所 有 与 问题 不 相关 的 内 容 。 
代码 越 短 ， 越 容易 理解 ， 问 题 也 就 越 容易 解决 。 
启动 一 个 新 的 RR 会话， 将 你 的 脚本 复制 并 粘贴 进去 ， 检 查 reprex 是 否 已 经 准备 完毕 。 
你 还 应 该 花 些 时 间 来 防 患 于 未 然 。 每 天 花 一 点 时 间 学 习 R， 长 远 来 看 你 将 获得 丰厚 的 回 
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报 。 可 以 在 RStudio 博客 上 关注 Hadley, Garrett 和 其 他 RStudio 开发 人 员 的 动态 。 我 们 会 
在 博客 上 发 布 有 关 新 R 包 、 新 IDE 功能 和 面授 课程 的 一 些 公告 。 你 还 可 以 在 Twitter 上 关 
注 Hadley ( @hadleywickham) 和 Garrett (@statgarrett) ， 也 可 以 关注 @rstudiotips 来 了 解 
RStudio 的 新 功能 。 


为 了 更 好 地 掌握 R 社区 的 最 新 动态 ， 我 们 建议 你 关注 R-bloggers 这 个 网 站 ， 该 网 站 汇集 了 
世界 各 地 500 多 个 关于 R 的 博客 。 如 果 你 是 活跃 的 Twitter 用 户 ， 可 以 关注 #rstats 这 个 主 
题 标签 。Twitter 是 Hadley 跟踪 R 社区 最 新 发 展 的 一 个 关键 工具 。 
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生成 环境 
本 书 的 生成 环境 如 下 所 示 。 


devtools::session info(c("tidyverse")) 

#> Session info ---------------------------------------7--7----- 
#> setting value 

#> version R version 3.3.1 (2016-06-21) 

#> System x86_64, darwin13.4.0 

#> ui X11 

#> language (EN) 

#> collate en_US.UTF-8 

WS {z America/Los_Angeles 

#> date 2016-10-10 

#> Packages ---------------------------------------------------- 


#> package * version date source 

#> assertthat 0.1 2013-12-06 CRAN (R 3.3.0) 
#> BH 1.60.0-2 2016-05-07 CRAN (R 3.3.0) 
#> broom 0.4.1 2016-06-24 CRAN (R 3.3.0) 
办 > colorspace 1.2-6 2015-03-11 CRAN (R 3.3.0) 
#> curl 2 t 2016-09-22 CRAN (R 3.3.0) 
#> DBI 0.5-1 2016-09-10 CRAN (R 3.3.0) 
#> dichromat 2.0-0 2013-01-24 CRAN (R 3.3.0) 
#> digest 0.6.10 2016-08-02 CRAN (R 3.3.0) 
#> dplyr * 0.50 2016-06-24 CRAN (R 3.3.0) 
#> forcats 0.1,1 2016-09-16 CRAN (R 3.3.0) 
#> foreign 0.8-67 2016-09-13 CRAN (R 3.3.0) 
#> ggplot2 * 2.1.0.9001 2016-10-06 local 

#> gtable 0.2.0 2016-02-26 CRAN (R 3.3.0) 
#> haven 1.0.0 2016-09-30 local 

#> hms 0.2-1 2016-07-28 CRAN (R 3.3.1) 
#> httr 了 :过 :了 2016-07-03 cran (@1.2.1) 
#> jsonlite iai 2016-09-14 CRAN (R 3.3.0) 
办 > labeling 0.3 2014-08-23 CRAN (R 3.3.0) 
#> lattice 0.20-34 2016-09-06 CRAN (R 3.3.0) 
#> lazyeval 0:270 2016-06-12 CRAN (R 3.3.0) 
#> lubridate 1.6.0 2016-09-13 CRAN (R 3.3.0) 
#> magrittr 1.5 2014-11-22 CRAN (R 3.3.0) 
#> MASS 7.3-45 2016-04-21 CRAN (R 3.3.1) 
#> mime 0.5 2016-07-07 cran (@0.5) 

#> mnormt 1.5-4 2016-03-09 CRAN (R 3.3.0) 
#> modelr 0.1.0 2016-08-31 CRAN (R 3.3.0) 
#> munsell 0.4.3 2016-02-13 CRAN (R 3.3.0) 
#> nlme 3.1-128 2016-05-10 CRAN (R 3.3.1) 
#> openssl 0.9.4 2016-05-25 cran (@0.9.4) 
#> plyr 1.8.4 2016-06-08 cran (@1.8.4) 
#> psych 1.6.9 2016-09-17 CRAN (R 3.3.0) 
#> purrr * 0.2.2 2016-06-18 CRAN (R 3.3.0) 
#> R6 2,3.3 2016-08-19 CRAN (R 3.3.0) 
办 > RColorBrewer 1.1-2 2014-12-07 CRAN (R 3.3.0) 
#> Rcpp 0.32. 7 2016-09-05 CRAN (R 3.3.0) 
#> readr * 4050 2016-08-03 CRAN (R 3.3.0) 
#> readxl 0. 1.1 2016-03-28 CRAN (R 3.3.0) 
#> reshape2 1.4.1 2014-12-06 CRAN (R 3.3.0) 
#> rvest 0: 32 2016-06-17 CRAN (R 3.3.0) 





#> 
#> 
#> 
#> 
#> 
#> 
#> 


scales 0.4.0.9003 
selectr 0.3 
stringi 1.1 
stringr Ely 
tibble 12 
tidyverse 1.0 

1.0. 


xml2 . 9001 


排版 约定 


本 书 使 用 
。 黑体 





了 下 列 排版 约定 。 


表示 新 术语 和 重点 强调 的 内 容 。 
° 等 宽 字 体 (constant width) 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 语 句 
和 关键 字 等 。 


° 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输 入 的 命令 或 其 他 文本 。 


° 等 宽 斜 体 (constant width italic) 


表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 
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使 用 代码 示例 


本 书 源 代码 可 以 从 图 灵 社 区 本 书页 面 
本 书 是 要 帮 你 完成 工作 的 。 
序 或 文档 





获得 许可 ， 引 用 本 


品 文档 中 





我 们 很 希望 但 六 


作者 、 出 


如 果 你 觉得 


2016-10-06 local 

2016-08-30 CRAN (R 3.3.0) 
2016-10-01 CRAN (R 3.3.1) 
2016-08-19 cran (@1.1.0) 
2016-08-26 CRAN (R 3.3.0) 
2016-09-09 CRAN (R 3.3.0) 
2016-09-30 local 


图 标 表示 提示 或 建议 。 














一 般 来 说 ， 如 果 本 3 




















免费 下 载 : http://www.ituring.com.cn/book/2113。 
提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 


中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 须 获 得 许可 ， 销 售 或 分 发 O Reilly 图 书 的 示例 光盘 则 需要 








则 需要 获得 许可 。 





F 不 强制 要 求 你 在 引用 本 


中 的 示例 代码 回答 问题 无 须 获得 许可 ， 将 二 





中 大 量 的 代码 放 到 你 的 产 





内 容 时 加 上 引用 说 明 。3 引 用 说 明 一 般 包括 书 名 、 


版 社 和 ISBN。 比 如 :“R for Data Science by Hadley Wickham and Garrett Grolemund 
(O’Reilly). Copyright 2017 Garrett Grolemund, Hadley Wickham, 978-1-491-91039-9.” 


oreilly.com 与 我 们 联系 。 


自己 对 示例 代码 的 用 法 超出 了 上 述 





许可 的 范围 ， 欢 迎 你 通过 permissions@ 





O'Reilly Safari 


Safari (原来 叫 Safari Books Online) 是 一 个 会 员 制 的 培训 和 参考 咨 


A Safari 询 平台 ， 面 向 企业 、 政 府 、 教 育 从 业者 和 个 人 。 


会 员 可 以 访问 几 千 种 书籍 、 培 训 视频 、 学 习 路 径 、 互 动 式 教 程 和 精 选 播放 列表 ， 提 供 这 些 
资源 的 出 版 商 超过 250 家 ， 包 括 O'Reilly Media, Harvard Business Review, Prentice Hall 
Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit Press. 








Adobe, Focal Press, Cisco Press, John Wiley & Sons, Syngress. Morgan Kaufmann, IBM 


Redbooks, Packt, Adobe Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, 


Jones & Bartlett, Course Technology, “£ ë, 


要 获得 更 多 信息 ， 请 访问 http://oreilly.com/safari。 


` ` ` 
联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 =: (100035) 
奥 菜 利 技术 咨询 (北京 ) 有 限 公司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 在 上 面 可 以 找到 图 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代码 以 及 其 他 信息 。 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions@oreilly.com 


要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : http://www. 


oreilly.com 
我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 




















我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia 





电子 版 。 





电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 








第 一 部 分 


探索 





本 书 第 一 部 分 的 目的 是 让 你 尽快 掌握 数据 探索 的 基本 工具 。 数 据 探索 是 一 门 艺 术 ， 它 可 以 
审视 数据 ， 快 速生 成 假设 并 进行 检验 ， 接 着 重复 、 重 复 、 再 重复 。 数 据 探索 的 目的 是 生成 
多 个 有 分 析 价 值 的 线索 ， 以 供 后 续 进行 更 深入 的 研究 。 








可 视 化 
= 


导入 一 > 整理 一 一 > 沟通 








编程 
你 将 在 本 部 分 中 学 习 一 些 非常 有 用 的 工具 ， 它 们 的 效果 立 午 见 影 。 


。 可 视 化 是 开始 R 编程 的 一 个 非常 好 的 起 点 ， 因 为 其 回报 非常 明确 : 你 可 以 做 出 样式 优 
雅 且 信息 丰富 的 图 形 来 帮助 自己 理解 数据 。 在 第 1 章 中 ， 你 将 深入 钻研 数据 可 视 化 ， 学 
>] ggplot2 图 形 的 基本 结构 以 及 将 数据 转换 为 图 形 的 强大 技术 。 

只 进行 可 视 化 通常 是 不 够 的 ， 因 此 你 将 在 第 3 章 中 学 习 一 些 非 常 重要 的 操作 ， 其 中 包括 
选取 重要 变量 、 筛 选 关键 观测 、 创 建新 变量 ， 以 及 计算 摘要 统计 量 。 

° 最 后 ， 在 第 5 章 中 ， 你 将 利用 数据 可 视 化 技术 和 数据 转换 技术 ， 结 合 你 的 好 奇 心 和 怀疑 
精神 ， 对 数据 提出 有 趣 的 问题 并 试图 找到 答案 。 

建 模 是 数据 探索 过 程 中 非常 重要 的 环节 ， 但 你 现在 还 没有 掌握 有 效 学 习 和 应 用 模型 的 技能 。 

一 旦 你 掌握 了 更 多 的 数据 处 理工 具 和 编程 工具 ， 我 们 将 在 第 四 部 分 继续 讨论 建 模 技术 。 

在 讲授 数据 探索 工具 的 3 章 间 ， 我 们 穿插 了 介绍 R 工作 流 的 3 章 内 容 。 在 第 2 章 、 第 4 章 

和 第 6 章 中 ， 你 将 学 习 编 写 和 组 织 R 代码 的 最 佳 实践 。 从 长 远 来 看 ， 这 会 为 你 的 成 功 打 下 

坚实 的 基础 ， 因 为 这 几 章 介绍 的 工具 可 以 让 你 井井有条 地 处 理 实际 项 目 。 


















































第 1 章 
使 用 ggplot2 进 行 数据 可 视 化 





1.1 简介 
简单 的 图 形 对 数据 分 析 者 的 启示 比 任何 其 他 方法 部 要 多 。 





John Tukey 


本 章 将 教 你 如 何 使 用 ggplot2 进行 数据 可 视 化 。R 有 好 几 种 绘图 工具 ， 但 ggplot2 s 
优雅 、 功 能 最 全 面 的 一 个 。ggplot2 实现 了 图 形 语 法 ， 这 是 一 套用 来 描述 和 构建 图 形 的 连 
性 语法 规则 。 掌 握 ggplot2 后 ， 你 便 可 以 在 多 个 场景 中 使 用 ， 从 而 显著 提高 工作 效率 。 


在 开始 学 习 之 前 ， 如 果 想 要 了 解 ggplot2 背后 的 更 多 理论 基础 ， 推 荐 你 读 一 读 “A Layered 


Grammar of Graphics” , 


准备 工作 
本 章 重点 讨论 tidyverse 的 一 个 核心 及 包 一 一 ggplot2。 为 了 访问 本 章 用 到 的 数据 集 、 帮 助 页 
面 和 函数 ， 需 要 先 运行 以 下 代码 来 加 载 tidyverse: 


library(tidyverse) 

#> Loading tidyverse: ggplot2 

#> Loading tidyverse: tibble 

办 > Loading tidyverse: readr 

#> Loading tidyverse: purrr 

#> Loading tidyverse: dplyr 

办 > Conflicts with tidy packages -------------------------------- 
#> filter(): dplyr, stats 

#> lag(): dplyr, stats 














这 一 行 代码 加 载 了 tidyverse 的 核心 R 包 。 在 几乎 所 有 的 数据 分 析 任 务 中 ， 你 都 会 用 到 这 些 
R 包 。 这 行 代码 还 会 告诉 你 tidyverse 中 的 哪些 函数 与 基础 RR 包 (或 者 已 加 载 的 其 他 R 包 ) 
中 的 函数 有 冲突 。 

如 果 运 行 这 行 代码 时 出 现 错误 消息 “there is no package called “tidyverse" ”， 那 么 你 需要 先 
安装 tidyverse， 然 后 再 运行 Library() 函数 : 


install.packages("tidyverse") 
library(tidyverse) 


R 包 只 需 安 装 一 次 ， 但 每 次 开始 新 会 话 时 都 要 重新 加 载 。 


如 果 想 要 明确 指出 某 个 函数 (或 数据 集 ) 的 来 源 ， 那 么 可 以 使 用 特殊 语法 形式 
package: :function()。 例 如 ，ggplot2::ggplot() 明确 指出 了 我 们 使 用 的 是 ggplot2 包 中 的 
ggplot() 函数 。 


1.2 第 一 步 


我 们 使 用 第 一 张 图 来 回答 问题 : 大 引擎 汽车 比 小 引擎 汽车 更 耗 油 吗 ? 你 可 能 已 经 有 了 答 
案 ， 但 应 该 努力 让 答案 更 精确 一 些 。 引 擎 大 小 与 燃油 效率 之 间 是 什么 关系 ?” 是 正 相 关 ， 还 
是 负 相关 ? 是 线性 关系 ， 还 是 非 线性 关系 ? 


1.2.1 ”mpg 数据 框 

你 可 以 使 用 ggplot2 包 中 的 mpg 数据 框 ( 即 ggplot2::mpg) 来 检验 自己 的 答案 。 数 据 框 是 
变量 (J) 和 观测 (47) 的 和 矩形 集合 。mpg 包含 了 由 美国 环境 保护 协会 收集 的 38 种 车 型 的 
观测 数据 。 














mpg 
#> # A tibble: 234 x 11 
#> manufacturer model displ year cyl trans drv 
#> <chr> <chr> <dbl> <int> <int> <chr> <chr> 
#> 1 audi a4 1.8 1999 4 auto(l5) f 
#> 2 audi a4 1.8 1999 4 manual(m5) f 
# 3 audi a4 2.0 2008 4 manual (m6) f 
#> 4 audi a4 2.0 2008 4 auto(av) T 
#> 5 audi a4 2.8 1999 6 auto(l5) f 
#> 6 audi a4 2.8 1999 6 manual(m5) f 
#> # ... with 228 more rows, and 4 more variables: 
#> # cty <ints, hwy <int>; fl <chr>; class <chr> 

mpg 中 包括 如 下 变量 。 


° displ: 引擎 大 小 ， 单 位 为 升 。 
° hw: 汽车 在 高 速 公路 上 行驶 时 的 燃油 效率 ， 单 位 为 英里 / 加仑 (mpg)。 与 燃油 效率 高 
的 汽车 相 比 ， 燃 油 效率 低 的 汽车 在 行驶 相同 距离 时 要 消耗 更 多 燃油 。 


要 想 了 解 更 多 关于 mpg 的 信息 ， 可 以 使 用 ?mpg 命令 打开 其 帮助 页 面 。 





1.2.2 创建 ggplot 图 形 
为 了 绘制 mpg 的 图 形 ， 运 行 以 下 代码 将 displ 放 在 x HH, hwy WCE y 轴 : 


ggplot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) 








° 
40- 


20 = 


2 3 4 5 6 F 
displ 

上 图 显示 出 引擎 大 小 (displ) 和 燃油 效率 (hwy) 之 间 是 负 相 关 关 系 。 换 句 话 说， 大 引擎 
汽车 更 耗 油 。 这 张 图 是 证 实 了 你 对 燃油 效率 和 引擎 大 小 之 间 关 系 的 假设 ， 还 是 推翻 了 它 ? 
在 ggplot2 中 ， 你 可 以 使 用 ggplot() 函数 开始 绘图 。ggplot() 创建 了 一 个 坐标 系 ， 你 可 以 在 
它 上 面 添 加 图 层 。ggplot() 的 第 一 个 参数 是 要 在 图 中 使 用 的 数据 集 。ggplot(data = mpg) 
会 创建 一 张 空白 图 ， 因 为 这 张 图 没什么 意思 ， 所 以 就 不 在 这 里 展示 了 。 
问 ggplot() 中 添加 一 个 或 多 个 图 层 就 可 以 完成 这 张 图 。 函 数 geom_point() 向 图 中 添加 一 
个 点 层 ， 这 样 就 可 以 创建 一 张 散 点 图 。ggplot2 中 包含 了 多 种 几何 对 象 函数 ， 每 种 函数 都 可 
以 向 图 中 添加 不 同类 型 的 图 层 。 你 将 在 本 章 中 学 到 大 量 的 几何 对 象 函 数 。 
ggplot2 中 的 每 个 几何 对 象 函数 都 有 一 个 mapping 参数 。 这 个 参数 定义 了 如 何 将 数据 集中 的 
变量 映射 为 图 形 属性 。mapping 参数 总 是 与 aes() 函数 成 对 出 现 ，aes() 函数 的 x 参数 和 y 
参数 分 别 指定 了 映射 到 x 轴 的 变量 与 映射 到 y 轴 的 变量 。ggplot2 在 data 参数 中 寻找 映射 
变量 ， 本 例 中 就 是 mpg。 


1.2.3 ”绘图 模板 
我 们 将 上 面 的 代码 转换 为 一 个 可 重用 的 ggplot2 绘图 模板 。 要 想 生 成 一 张 图， 将 以 下 代码 
中 的 尖 括 号 部 分 替换 为 数据 集 、 几 何 对 象 函数 或 映射 集合 即 可 : 


ggplot(data = <DATA>) + 
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>)) 


本 章 其 余 内 容 将 向 你 展示 如 何 完成 并 扩展 这 个 模板 ， 以 制作 出 各 种 类 型 的 图 。 我 们 将 从 
<MAPPINGS> 部 分 开始 。 
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1.2.4 练习 

(1) 运行 ggplot(data = mpg)， 你 会 看 到 什么 ? 

(2) 数据 集 mpg 中 有 多 少 行 ? 多 少 列 ? 

(3) 变量 drv 的 意义 是 什么 ? 使 用 ?mpg 命令 阅读 帮助 文件 以 找 出 答案 。 
(4) 使 用 hwy 和 cyl 绘制 一 张 散 点 图 。 
(5) 如 果 使 用 class 和 drv 绘制 散 点 图 ， 会 发 生 什么 情况 ?为 什么 这 张 图 没什么 用 处 ? 


1.3 图 形 属性 映射 


图 片 的 最 大 价值 在 于 促使 我 们 发 现 从 未 预料 到 的 事情 。 

















一 一 John Tukey 


下 图 中 有 一 组 点 (显示 为 红色 ) 似乎 位 于 线性 趋势 之 外 。 这 些 汽车 比 预 期 具有 更 高 的 里 程 
数 。 如 何 解释 这 种 现象 呢 ? 
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我 们 可 以 假设 这 些 汽 车 是 混合 动力 车 。 检 验 这 种 假设 的 一 个 方法 是 查看 每 辆 汽车 的 class 
值 。mpg 数据 集中 的 class 变量 对 汽车 进行 了 分 类 ， 比 如 小 型 、 中 型 和 SUV。 如 果 那 些 离 
群 点 是 混合 动力 车 ， 那 么 它们 应 该 分 类 为 小 型 车 ， 也 可 能 是 微型 车 (注意 ， 这 份 数据 是 在 
混合 动力 车 和 SUV 流行 前 收集 的 )。 

可 以 向 二 维 散 点 图 中 添加 第 三 个 变量 ， 比 如 class, 方式 是 将 它 映射 为 图 形 属性 。 图 形 
属性 是 图 中 对 象 的 可 视 化 属性 ， 其 中 包括 数据 点 的 大 小 、 形 状 和 颜色 。 通 过 改变 图 形 属 
性 的 值 ， 可 以 用 不 同 的 方式 来 显示 数据 点 (如 下 图 所 示 )。 因 为 已 经 使 用 “value” 这 个 
词 来 表示 数据 的 值 ， 所 以 下 面 使 用 “level”( 水 平 ) 这 个 词 来 表示 图 形 属性 的 值 。 我 们 来 
改变 一 个 点 的 大 小 、 形 状 和 颜色 的 水 平 ， 分别 让 它 变 小 、 变 为 三 角形 和 变 为 蓝 色 ， 如 下 
所 示 。 
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通过 将 图 中 的 图 形 属性 映射 为 数据 集中 的 变量 ， 可 以 传达 出 数据 的 相关 信息 。 例 如 ， 可 以 
将 点 的 颜色 映射 为 变量 class， 从 而 揭示 每 辆 汽车 的 类 型 ; 


ggpLot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy, color = class)) 
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displ 


(如 果 你 更 喜欢 英 式 英语 ， 就 像 Hadley 一 样 ， 那 么 可 以 使 用 colour 代替 color, ) 
要 想 将 图 形 属性 映射 为 变量 ， 需 要 在 国 数 aes() 中 将 图 形 属 性 名 称 和 变量 名 称 关 联 起 来 。 
ggplot2 会 自动 为 每 个 变量 值 分 配 唯 一 的 图 形 属性 水 平 (本 例 中 是 唯一 的 颜色 ) ， 这 个 过 程 
称 为 标 度 变换 。ggplot2 还 会 添加 一 个 图 例 ， 以 表示 图 形 属性 水 平和 变量 值 之 间 的 对 应 关 
系 。 
闫 色 揭 示 出 的 信息 是 ， 那 些 离 群 点 多 数 是 双 座 汽车 。 这 些 汽车 不 像 是 混合 动力 车 ， 实 际 
上 ， 它 们 是 跑车 ! 跑车 像 SUV 和 皮卡 一 样 配 有 大 引 警 ， 但 车 身 却 类 似 于 中 型 车 和 小 型 车 ， 
这 样 就 提高 了 它 的 里 程 数 。 现 在 想来 ， 这 些 车 不 会 是 混合 动力 的 ， 因 为 它们 具有 大 引擎 。 
在 上 例 中 ， 我 们 将 class 映射 为 颜色 ， 但 也 可 以 用 同样 的 方式 将 其 映射 为 点 的 大 小 。 在 下 
面 的 示例 中 ， 每 个 点 的 实际 大 小 表示 其 所 属 的 类 别 。 这 里 我 们 收 到 一 条 警告 信息 ， 因 为 将 
无 序 变量 (class) 映射 为 有 序 图 形 属性 (size) 可 不 是 好 主意 。 

ggpLot(data = mpg) + 


geom_point(mapping = aes(x = displ, y = hwy, size = class)) 
#> Warning: Using size for a discrete variable is not advised. 
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displ 
或 者 我 们 也 可 以 将 class 映射 为 控制 数据 点 透明 度 的 alpha 
点 的 形状 。 


# 上 图 
ggplot(data = mpg) + 





class 

@ 2seater 

@ compact 
@ midsize 

@ minivan 

e pickup 

@ subcompact 


@ suv 


图 形 属性 ， 还 可 以 将 其 映射 为 








geom point(mapping = aes(x = displ, y = hwy, alpha = class)) 
# 下 图 
ggplot(data = mpg) + 
geom point(mapping = aes(x = displ, y = hwy, shape = class)) 
° 
40- class 
2seater 
compact 
è midsize 
@ minivan 
j @ pickup 
9° ® subcompact 
e8 S o ° e suv 
T ° .° 
° 
2 3 1 5 6 7 
displ 
* 
40- ei class 
$ e 2seater 
£ 类 í A compact 
> 90- +à 人 a = " m midsize 
š :人 nô : + minivan 
SRE PL š ° A 四 pickup 
20- 加 agt = 米 米 subcompact 
+a 到 gg 加 gg gg 加 
BA B a s SUV 
B 
2 3 4 5 6 7 
displ 
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SUV 怎么 了 ? ggplot2 只 能 同时 使 用 6 种 形状 。 默 认 情况 下 ， 当 使 用 这 种 图 形 属 性 时 ， 多 
出 的 变量 值 将 不 会 出 现在 图 中 。 

对 你 所 使 用 的 每 个 图 形 属性 来 说 ， 函 数 aes() 都 可 以 将 其 名 称 与 一 个 待 显示 变量 关联 起 来 。 
aes() 将 图 层 中 使 用 的 每 个 图 形 属性 映射 集合 在 一 起 ， 然 后 传递 给 该 图 层 的 映射 参数 。 这 
一 语法 强调 了 关于 x 和 y 的 重要 信息 : 数据 点 的 x 轴 位 置 和 y 轴 位 置 本 身 就 是 图 形 属性 ， 
即 可 以 映射 为 变 ; 量 来 表示 数据 信息 的 可 视 化 属性 。 

一 旦 映射 了 图 形 属性 ，ggplot2 会 处 理 好 其 余 的 事情 。 它 会 为 图 形 属性 选择 一 个 合适 的 标 
度 ， 并 创建 图 例 来 表示 图 形 属性 水 平和 变量 值 之 间 的 映射 关系 。ggplot2 不 会 为 x 和 y 这 两 
个 图 形 属性 创建 图 例 ， 而 会 创建 带 有 刻度 标记 和 标签 的 坐标 轴 。 坐 标 轴 就 相当 于 图 例 ， 可 
以 体现 出 位 置 和 变量 值 之 间 的 映射 关系 。 

还 可 以 手动 为 几何 对 象 设 置 图 形 属 性 。 例 如 ， 我 们 可 以 让 图 中 的 所 有 点 都 为 蓝 色 ; 


ggpLot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy), color = "blue") 
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displ 





此 时 颜色 不 会 传达 关于 变量 的 信息 ， 只 是 改变 图 的 外 观 。 要 想 手动 设置 图 形 属性 ， 需 要 按 
名 称 进行 设置 ， 将 其 作为 几何 对 象 国 数 的 一 个 参数 。 这 也 就 是 说 ， 需 要 在 国 数 aes() 的 外 
部 进行 设置 。 此 外 ， 还 需要 为 这 个 图 形 属性 选择 一 个 有 意义 的 值 。 

。 颜色 名 称 是 一 个 字符 串 。 
点 的 大 小 用 毫米 表示 。 
点 的 形状 是 一 个 数值 ， 如 图 1-1 所 示 。 有 些 形状 相同 ， 比 如 0、15 和 22 都 是 正方 形 。 
形状 之 间 的 区 别 在 于 color 和 fill 这 两 个 图 形 属性 。 空 心 形状 (0~14) 的 边界 颜色 由 
color 决定 ;实心 形状 〈15~20) 的 填充 颜色 由 color 决定 ;填充 形状 (21~24) 的 边界 
颜色 由 color 决定 ， 填 充 颜 色 由 fill 决定 。 
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1-1: 用 数值 进行 标识 的 R 的 25 种 内 置 形 状 


练习 
(1) 以 下 这 段 代 码 有 什么 错误 ? 为 什么 点 不 是 蓝 色 的 ? 
ggpLot(data = mpg) + 


geom_point( 
mapping = aes(x = displ, y = hwy, color = "blue") 
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displ 








(2) mpg 中 的 哪些 变量 是 分 类 变量 ? 哪些 变量 是 连续 变量 ? (提示 : 输入 ?mpg 来 阅读 这 个 数 
据 集 的 文档 。) 当 调用 mpg 时 ， 如 何 才能 看 到 这 些 信息 ? 

(3) 将 一 个 连续 变量 映射 为 color, size 和 shape。 对 分 类 变量 和 连续 变量 来 说 ， 这 些 图 形 
属性 的 表现 有 什么 不 同 ? 

(4) 如 果 将 同一 个 变量 映射 为 多 个 图 形 属性 ， 会 发 生 什么 情况 ? 

(5) stroke 这 个 图 形 属 性 的 作用 是 什么 ? 它 适 用 于 哪些 形状 ? (提示: 使 用 ?geom point 命令 。) 

(6) 如 果 将 图 形 属性 映射 为 非 变 量 名 对 象 ， 比 如 aes(color = displ < 5)， 会 发 生 什 么 情况 ? 


1.4 常见 问题 


当 开 始 运行 R 代码 时 ， 你 很 可 能 会 遇 到 问题 。 不 用 担心 ， 每 个 人 都 会 遇 到 问题 。 我 已 经 编 
写 R 代码 多 年 了 ， 但 还 是 每 天 都 会 写 出 不 能 正常 运行 的 代码 。 
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首先 ， 将 你 需要 运行 的 代码 与 书 中 的 代码 进行 仔细 对 比 。R 极其 挑剔 ， 即 使 一 个 字母 放 错 
了 位 置 ， 也 可 能 会 造成 问题 。 确 保 每 个 ( 都 有 一 个 ) 与 之 匹配 ， 并 且 每 个 " 后 面 都 跟着 另 
一 个 "。 有 时 运行 了 代码 却 什么 也 没有 发 生 。 检 查 一 下 控制 台 左 侧 : 如 果 有 一 个 + 号 ， 那 
么 说 明 R 认为 你 没有 输入 完整 的 表达 式 ， 正 在 等 待 你 完成 输入 。 这 种 情况 下 ， 按 Esc 键 中 
止 当前 执行 的 命令 就 可 以 重新 开始 。 

创建 ggplot2 图 形 时 的 一 个 常见 问题 是 将 + 号 放 错 了 位 置 : + 必须 放 在 一 行 代码 的 末尾 ， 而 
不 是 开头 。 换 句 话 说 ， 请 确保 你 没有 粗心 地 写 出 以 下 这 样 的 代码 : 


ggplot(data = mpg) 
+ geom _ point(mapping = aes(x = displ, y = hwy)) 



































如 果 还 是 有 问题 ， 那 么 可 以 看 看 帮助 页 面 。 通 过 在 控制 台中 运行 ? 函数 名 ,或 者 在 RStudio 
中 选 定 函 数 名 称 后 按 Fl 键 ， 你 可 以 获得 任何 及 函数 的 帮助 信息 。 如 果 帮 助 页 面 看 上 去 没 
什么 用 ， 也 不 要 着 急 ， 你 可 以 跳 过 这 些 帮助 信息 ， 向 下 找到 示例 部 分 ， 并 查看 与 你 的 需求 
相 匹 配 的 代码 。 

如 果 还 是 没什么 用 ， 那 么 再 仔细 阅读 一 下 错误 消息 。 有 时 答案 就 隐藏 在 其 中 ! 但 如 果 你 
是 R 语言 新 手 ， 那 么 即使 答案 就 在 错误 消息 中 ， 你 也 很 难 理解 。 男 一 个 非常 好 的 工具 就 是 
Google: 试 着 搜索 一 下 错误 消息 ， 因 为 别人 很 可 能 也 遇 到 过 同样 的 问题 ， 并 在 网 上 得 到 了 
答案 。 


1.5 分 面 


添加 额外 变量 的 一 种 方法 是 使 用 图 形 属性 。 另 一 种 方法 是 将 图 分 割 成 多 个 分 面 ， 即 可 以 显 
示 数 据 子 集 的 子 图 。 这 种 方法 特别 适合 添加 分 类 变量 。 


































































































2seater compact midsize minivan 

° 
40- 

°. 

° 

` ° 
"| E <, 

° 
° .. e v, °. ° r 
eO 
° 
> | TETEE 
z pickup subcompact suv 

° 
40- e 

š 
30- ogs 

t < I. 
20- . :以 ° ° ° 

° "88% ° ç: Je. 
° ° 


2 Š # 5 6 %? @ 3 ú 5 @ Z? 2 9 á 5 6 7? 
displ 
要 想 通 过 单个 变量 对 图 进行 分 面 ， 可 以 使 用 函数 facet_wrap()。 其 第 一 个 参数 是 一 个 公 
式 ， 创 建 公式 的 方式 是 在 ~ 符号 后 面 加 一 个 变量 名 (这 里 所 说 的 “公式 ”是 R 中 的 一 种 数 
据 结构 ， 不 是 数学 意义 上 的 公式 )。 传 递 给 facet_wrap() 的 变量 应 该 是 离散 型 的 。 












































使 用 ggplot2 进 行 数据 可 视 化 | 11 


ggpLot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) + 
facet wrap(~ class, nrow = 2) 


要 想 通 过 两 个 变量 对 图 进行 分 面 ， 需 要 在 绘图 命令 中 加 入 函数 facet_grid()。 这 个 函数 的 
第 一 个 参数 也 是 一 个 公式 ， 但 该 公式 包含 由 ~ 隔 开 的 两 个 变量 名 。 
ggpLot(data = mpg) + 


geom_point(mapping = aes(x = displ, y = hwy)) + 
facet_grid(drv ~ cyl) 


4 5 6 8 
40- 
30- 5 
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20- 
i s a 
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< ° 
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20 š 
40- 
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8 Ui 
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28 4 5687 2 334 587 29 4 56877 29 44 5 @ 7? 


displ 


如 果 不 想 在 行 或 列 的 维度 进行 分 面 ， 你 可 以 使 用 . 来 代替 变量 名 ,例如 + facet_grid(. ~ 
cyl). 


练习 

(1) 如 果 使 用 连续 变量 进行 分 面 ， 会 发 生 什么 情况 ? 

(2) 在 使 用 facet_grid(drv ~ cyl) 生成 的 图 中 ， 空 白 单元 的 意义 是 什么 ? 它们 和 以 下 代码 
生成 的 图 有 什么 关系 ? 


ggplot(data = mpg) + 
geom_point(mapping = aes(x = drv, y = cyl)) 


(3) 以 下 代码 会 绘制 出 什么 图 ?. 的 作用 是 什么 ? 


ggplot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) + 
facet_grid(drv ~ .) 




















ggplot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) + 
facet_grid(. ~ cyl) 


(4) 查看 本 市 的 第 一 个 分 面 图 : 





ggpLot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) + 
facet_wrap(~ class, nrow = 2) 


与 使 用 图 形 属 性 相 比 ， 使 用 分 面 的 优势 和 劣势 分 别 是 什么 ?如 果 有 一 个 更 大 的 数据 集 ， 
你 将 如 何 权 衡 这 两 种 方法 的 优 劣 ? 


(5) 阅读 ?facet_wrap 的 帮助 页 面 。nrow 和 ncol 的 功能 分 别 是 什么 ”还 有 哪些 选项 可 以 控 
制 分 面 的 布局 ”为 什么 函数 facet_grid() 没有 变量 nrow 和 ncol ? 


(6) 在 使 用 函数 facet_grid() 上 时， 一般 应 该 将 具有 更 多 唯一 值 的 变量 放 在 列 上 。 为 什么 这 
么 做 呢 ? 


1.6 MAHR 


以 下 两 张 图 的 相似 程度 有 多 大 ? 





























4 5 6 7 2 3 4 
displ displ 


两 张 图 有 同样 的 x 变量 和 y 变量 ， 而 且 描述 的 是 同样 的 数据 。 但 这 两 张 图 并 不 一 样 ， 它 们 
各 自 使 用 不 同 的 可 视 化 对 象 来 表示 数据 。 在 ggplot2 语法 中 ， 我 们 称 它 们 使 用 了 不 同 的 几 
何 对 象 。 


几何 对 象 是 图 中 用 来 表示 数据 的 几何 图 形 对 象 。 我 们 经 常 根据 图 中 使 用 的 几何 对 象 类 型 来 
描述 相应 的 图 。 例 如 ， 条 形 图 使 用 了 条 形 几 何 对 象 ， 折 线 图 使 用 了 直线 几何 对 象 ， 箱 线 图 
使 用 了 矩形 和 直线 几何 对 象 。 散 点 图 打破 了 这 种 趋势 ， 它 们 使 用 点 几何 对 象 。 如 上 面 的 两 
幅 图 所 示 ， 我 们 可 以 使 用 不 同 的 几何 对 象 来 表示 同样 的 数据 。 左 侧 的 图 使 用 了 点 几何 对 
象 ， 右 侧 的 图 使 用 了 平 请 曲线 几何 对 象 ， 以 一 条 平 请 曲线 来 拟 合 数据 。 

要 想 改变 图 中 的 几何 对 象 ， 需 要 修改 添加 在 ggplot() 函数 中 的 儿 何 对 象 函数 。 举 例 来 说 ， 
要 想 绘制 出 上 图 ， 你 可 以 使 用 以 下 代码 : 


# EE 
ggplot(data = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) 























= 










































































# 右 图 
ggpLot(data = mpg) + 
geom_smooth(mapping = aes(x = displ, y = hwy)) 


ggplot2 中 的 每 个 几何 对 象 国 数 都 有 一 个 mapping 参数 。 但 是 ， 不 是 每 种 图 形 属 性 都 适合 
每 种 几何 对 象 。 你 可 以 设置 点 的 形状 ， 但 不 能 设置 线 的 “形状 “， 而 可 以 设置 线 的 线 型 。 
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geom_smooth() 国 数 可 以 按照 不 同 的 线 型 绘制 出 不 同 的 曲线 ， 每 条 曲线 对 应 映射 到 线 型 的 
变量 的 一 个 唯一 值 : 


ggplot(data = mpg) + 
geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv)) 





35- 





6 7 


2 3 


4 
displ 





根据 表示 汽车 驱动 系统 的 drv 变量 的 值 ， 这 里 的 geom_smooth() 函数 分 别 用 3 条 曲线 来 表 
示 汽 车 。 一 条 线 表示 drv 值 为 4 的 所 有 汽车 ， 一 条 线 表示 drv 值 为 ff 的 所 有 汽车 ， 另 一 条 
线 表示 drv 值 为 r 的 所 有 汽车 。 其 中 4 表示 四 轮 驱 动 ，f 表示 前 轮 驱 动 ，r 表示 后 轮 驱 动 。 


如 果 你 觉得 这 有 些 难 以 理解 ， 我 们 可 以 将 这 些 曲线 覆盖 在 原始 数据 上 ， 并 按照 drv 值 对 所 
有 的 点 和 线 进 行 着 色 ， 这 样 你 就 能 看 得 更 清楚 一 些 了 。 

















40- 


drv 


20- 





4 
displ 


注意 ， 我 们 刚才 在 同一 张 图 中 使 用 了 两 种 几何 对 象 ， 多 么 激动 人 心 ! 稍 安 勿 躁 ， 我 们 将 在 








下 一 市 中 学 习 如 何在 同一 张 图 中 放置 多 个 儿 何 对 象 。 


ggplot2 提供 了 30 多 种 几何 对 象 ， 其 扩展 包 其 至 提供 了 更 多 (可 以 在 https://www.ggplot2- 
exts.org 查看 更 多 样 例 )。 如 果 想 全 面 地 了 解 这 些 对 象 ， 最 好 的 方式 是 学 习 ggplot2 WER 
(参见 http://rstudio.com/cheatsheets)。 如 果 想 掌握 更 多 关于 某 个 几何 对 象 的 知识 ， 那 么 可 以 
使 用 帮助 ， 如 ?geom_smooth。 


和 geom_smooth() 一 样 ， 很 多 几何 对 象 函数 使 用 单个 几何 对 象 来 表示 多 行 数据 。 你 可 以 将 
这 些 几 何 对 象 的 group 图 形 属性 设置 为 一 个 分 类 变量 ， 这 样 ggplot2 就 会 为 这 个 分 类 变量 
的 每 个 唯一 值 绘制 一 个 独立 的 几何 对 象 。 实 际 上 ， 只 要 将 一 个 图 形 属性 映射 为 一 个 离散 变 
量 (如 上 个 示例 中 的 Linetype)，ggplot2 就 会 自动 对 数据 进行 分 组 来 绘制 多 个 几何 对 象 。 
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这 个 功能 非常 方便 ， 因 为 按照 图 形 属性 的 这 种 分 组 不 用 添加 图 例 ， 也 不 用 为 几何 对 象 添 加 
区 分 特征 : 


ggpLot(data = mpg) + 
geom_smooth(mapping = aes(x = displ, y = hwy)) 














ggpLot(data = mpg) + 
geom_smooth(mapping = aes(x = displ, y = hwy, group = drv)) 


ggplot(data = mpg) + 
geom_smooth( 
mapping = aes(x = displ, y = hwy, color = drv), 
show.legend = FALSE 


6 7 2 7 2 7 


¿ $ 4 5 4 5 
displ displ displ 


要 想 在 同一 张 图 中 显示 多 个 几何 对 象 ， 可 以 向 ggplot() 国 数 中 添加 多 个 几何 对 象 国 数 : 
ggpLot(data = mpg) + 


geom_point(mapping = aes(x = displ, y = hwy)) + 
geom_smooth(mapping = aes(x = displ, y = hwy)) 





displ 


但 是 ， 这 样 代 码 就 产生 了 一 些 重复 。 假 如 你 想 将 》 轴 上 的 变量 从 hwy 改 成 cty， 那 么 就 要 
在 两 个 地 方 修改 这 个 变量 ， 但 你 或 许 会 漏 掉 一 处 。 避 免 这 种 重复 的 方法 是 将 一 组 映射 传递 
给 ggplot() 函数 。ggplot2 会 将 这 些 映射 作为 全 局 映射 应 用 到 图 中 的 每 个 几何 对 象 中 。 换 





名 话说 ， 以 下 代码 将 绘制 出 与 上 面 代 码 同 样 的 图 : 
ggpLot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
geom_point() + 
geom_smooth() 
如 果 将 映射 放 在 几何 对 象 函 数 中 ， 那 么 ggplot2 会 将 其 看 作 这 个 图 层 的 局 部 映射 ， 它 将 使 
用 这 些 映 射 扩 展 或 覆盖 全 局 映射 ， 但 仅 对 该 图 层 有 效 。 这 样 一 来 ， 我 们 就 可 以 在 不 同 的 图 
层 中 显示 不 同 的 图 形 属性 : 
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ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
geom_point(mapping = aes(color = class)) + 
geom_smooth() 


class 

® 2seater 

* compact 
* midsize 

© minivan 

® pickup 

® subcompact 


° suv 





4 
displ 








同 理 ， 你 也 可 以 为 不 同 的 图 层 指定 不 同 的 数据 。 下 图 中 的 平 请 曲线 表示 的 只 是 mpg 数据 集 
的 一 个 子 集 ， 即 微型 车 。geom_smooth() 函数 中 的 局 部 数据 参数 覆盖 了 ggplot() 函数 中 的 
全 局 数据 参数 ， 当 然 仅 对 这 个 图 层 有 效 : 


ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
geom_point(mapping = aes(color = class)) + 
geom_smooth( 

data = filter(mpg, class == "subcompact"), 
se = FALSE 
) 


class 
* 2seater 
compact 


midsize 


pickup 


. 

. 

* minivan 
. 

* subcompact 
° 


suv 





(你 将 在 下 一 章 中 学 习 filter() 国 数 的 用 法 ， 现 在 只 需要 知道 这 个 命令 仅 选取 出 微型 车 就 
To) 


练习 


(1) 在 绘制 折线 图 、 箱 线 图 、 直 方 图 和 分 区 图 时 ， 应 该 分 别 使 用 哪 种 几何 对 象 ? 


(2) 在 脑海 中 运行 以 下 代码 ， 并 预测 会 有 何 种 输出 。 接 着 在 R 中 运行 代码 ， 并 检查 你 的 预 
测 是 否 正确 。 
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ggplot( 
data = mpg, 


mapping = aes(x = displ, y = hwy, color = drv) 


) + 


geom_point() + 


geom_smooth(se = FALSE) 


(3) show.legend = FALSE 的 作用 是 什么 ? 删 





章 前 面 的 示例 中 使 用 这 名 代码 ? 
(4) geom_smooth() 国 数 中 的 se 参数 的 作用 是 什么 ? 
(5) 以 下 代码 生成 的 两 张 图 有 什么 区 别 吗 ? 为 什么 ? 


ggpLot(data = mpg, mapping = aes(x = displ, y = hwy)) + 











geom_point() + 
geom_smooth() 


ggplot() + 
geom_point( 
data = mpg, 
mapping = aes(X 
) + 
geom_smooth( 
data = mpg, 
mapping = aes(x 


) 


(6) 自己 编写 R 代码 来 生成 以 下 各 


dispL，y 


displ, y 





PA 











hwy) 


hwy) 


除 





它 会 发 生 什么 情况 ?你 觉得 我 为 什么 要 在 本 








使 用 ggplot2 进 行 数据 可 视 化 
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1.7 统计 变换 


接 下 来 我 们 看 一 下 条 形 图 。 条 形 图 虽然 简单 ， 但 很 有 意思 ， 因 为 它 可 以 揭示 出 图 形 中 的 一 
些微 妙 信息 。 我 们 看 一 下 用 geom_bar() 国 数 就 可 以 绘制 的 基本 条 形 图 。 下 面 的 条 形 图 显示 
了 diamonds 数据 集中 按照 cut 变量 分 组 的 各 种 钻石 的 总 数量 。diamonds 数据 集 是 ggplot2 
的 内 置 数据 集 ， 包 含 大 约 54 000 颗 钻 石 的 信息 ， 每 颗 钻石 具有 price, carat, color, 
clarity 和 cut 变量 。 条 形 图 显示 ， 高 质量 切割 钻石 的 数量 要 比 低 质 量 切 割 钻石 的 数量 多 : 


ggpLot(data = diamonds) + 
geom_bar (mapping = aes(x = cut)) 




















20000 - 


15000 - 


10000- 
p p 


Fair Good Very Good Premium Ideal 
cut 


count 








条 形 图 x 轴 显示 的 是 cut， 这 是 diamonds 数据 集中 的 一 个 变量 。y 轴 显 示 的 是 count， 但 
count 不 是 diamonds 中 的 变量 ! 那么 count 来 自 哪 里 呢 ? 很 多 图 aer 
数据 ， 比 如 散 点 图 。 另 外 一 些 图 形 则 可 以 绘制 那些 计算 出 的 新 数据 ， 比 如 条 形 






































条 形 图 、 直 方 图 和 频率 多 边 形 图 可 以 对 数据 进行 分 箱 ， 然 后 绘制 出 分 箱 数量 和 沙 在 每 个 
分 箱 的 数据 点 的 数量 。 

平 请 曲线 会 为 数据 拟 合 一 个 模型 ， 然 后 绘制 出 模型 预 宙 值 。 

箱 线 图 可 以 计算 出 数据 分 布 的 多 种 摘要 统计 量 ， 并 显示 一 个 特殊 形式 的 箱 体 。 

















绘图 时 用 来 计算 新 数据 的 算法 称 为 stat (statistical transformation， 统 计 变 换 )。 下 图 描述 了 


9 


























eom_bar() 函数 的 统计 变换 过 程 。 
(1) geom_bar() 从 (2) geom_bar() 使 上 (3) geom_bar() 使 用 变换 后 的 数 
diamonds 数 据 “数量 ”统计 变换 据 进 行 绘图 ，cut 映 射 到 x 四， 
集 开始 处 理 对 数据 进行 转换 ， count 映 射 到 y 轴 
返回 切割 值 和 计 











数 的 数据 集 











通过 查看 stat 参数 的 默认 值 ， 你 可 以 知道 几何 对 象 函数 使 用 了 哪 种 统计 变换 。 例 
如 ，?geom_bar 显示 出 stat 的 默认 值 是 count， 这 说 明 geom_bar() 使 用 stat_count() 国 数 
进行 统计 变换 。stat_count() 在 文档 中 与 geom_bar() 位 于 同一 页 ， 如 果 继 续 向 下 看 ， 你 可 
以 发 现 名 为 “Computed variables” 的 一 节 ， 它 告诉 我 们 stat_count() 会 计算 出 两 个 新 变 


量 : count 和 props 


通常 来 说 ， 几 何 对 象 国 数 和 统计 变换 国 数 可 以 互 换 使 用 。 例 如 ， 你 可 以 使 用 stat_count() 


替换 geom_bar() 来 重新 生成 前 面 那 张 图 ， 


ggpLot(data = diamonds) + 
stat_count(mapping = aes(x = cut)) 

Fair Good Very Good Premium Ideal 

cut 


可 以 这 样 做 的 原因 是 ， 每 个 几何 对 象 函 数 都 有 一 个 默认 统计 变换 ， 每 个 统计 变换 函数 都 有 
一 个 默认 几何 对 象 。 一 般 情况 下 ， 这 意味 着 你 在 使 用 几何 对 象 函 数 时 不 用 担心 底层 的 统计 
变换 。 想 要 显 式 使 用 某 种 统计 变换 的 3 个 原因 如 下 。 


你 可 能 想 要 覆盖 默认 的 统计 变换 。 在 以 下 代码 中 ， 我 们 将 geom_bar() 函数 的 统计 变换 
从 计数 (默认 值 ) 修改 为 标识 。 这 样 我 们 就 可 以 将 条 形 的 高 度 映射 为 y 轴 变 量 的 初始 值 。 
遗憾 的 是 ， 当 随意 说 起 条 形 图 时 ， 人 们 指 的 可 能 就 是 这 种 条 形 图 ， 其 中 条 形 高 度 已 经 存 
在 于 数据 中 ， 而 不 是 像 前 一 个 图 一 样 ， 条 形 高 度 由 对 行进 行 计数 来 生成 : 
demo <- tribble( 
~a, ~b, 
"bar_1", 20, 
"bar 2", 30; 
"bar_3", 40 
) 








20000 - 


15000 - 


10000 - 








ggplot(data = demo) + 
geom_bar( 
mapping = aes(x = a, y = b), stat = "identity" 


) 
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30- 

Q 20- 
j 天 
0- 


bar 1 bar 2 bar 3 
a 


(你 还 不 知道 <- 和 tibble() 的 含义 ? 别 担 心 ， 根 据 上 下 文 就 能 猜 出 它们 的 含义 ， 而且 
你 很 快 就 会 学 习 它 们 了 。) 

你 可 能 想 要 覆盖 从 统计 变换 生成 的 变量 到 图 形 属性 的 默认 映射 。 例 如 ， 你 或 许 想 显示 一 
张 表示 比例 (而 不 是 计数 ) 的 条 形 图 : 


ggplot(data = diamonds) + 

















geom_bar( 
mapping = aes(x = cut, y = ..prop.., group = 1) 
) 
0.4- 
0.3 
Q 
O 0.2- 
a 
01- 
no Wasa FJ 
Fair Good Very Good Premium Ideal 
cut 


如 果 想 要 找 出 由 统计 变换 计算 出 的 变量 ， 可 以 查看 帮助 文件 中 的 “Computed variables” 
=e 
你 可 能 想 要 在 代码 中 强调 统计 变换 。 例 如 ， 你 可 以 使 用 stat_summary() 函数 将 人 们 的 
注意 力 吸引 到 你 计算 出 的 那些 摘要 统计 量 上 。stat_summary() 国 数 为 x 的 每 个 唯一 值 计 
算 y 值 的 摘要 统计 : 

ggpLot(data = diamonds) + 


stat_summary( 
mapping = aes(x = cut, y = depth), 
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A 
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fun.ymin = min, 
fun.ymax = max, 
fun.y = median 


) 


80= 


70- 


50- 


' ' ' ' ' 
Fair Good Very Good Premium Ideal 
cut 


ggplot2 提供 了 20 多 个 统计 变换 以 供 你 使 用 。 每 个 统计 变换 都 是 一 个 函数 ， 因 此 你 可 以 按 
照 通用 方式 获得 帮助 ， 例 如 ?stat_bin。 如 果 想 要 查看 全 部 的 统计 变换 ， 可 以 使 用 ggplot2 
速 查 表 。 


练习 


(1) stat_summary() 国 数 的 默认 几何 对 象 是 什么 ? 不 使 用 统计 变换 国 数 的 话 ， 如 何 使 用 几何 
对 象 函 数 重新 生成 以 上 的 图 ? 


(2) geom_col() 函数 的 功能 是 什么 ? 它 和 geom_bar() 函数 有 何不 同 ? 


(3) 多 数 几 何 对 象 和 统计 变换 都 是 成 对 出 现 的， 总 是 配合 使 用 。 仔 细 阅 读 文档 ， 列 出 所 有 
成 对 的 几何 对 象 和 统计 变换 。 它 们 有 什么 共同 之 处 ? 


(4) stat_smooth() 函数 会 计算 出 什么 变量 ?哪些 参数 可 以 控制 它 的 行为 ? 


(5) 在 比例 条 形 图 中 ， 我 们 需要 设 定 group = 1， 这 是 为 什么 呢 ? 换 名 话说， 以 下 两 张 图 会 
有 什么 问题 ? 


ggpLot(data = diamonds) + 











geom_bar(mapping = aes(x = cut, y = ..prop..)) 
ggplot(data = diamonds) + 
geom_bar( 
mapping = aes(x = cut, fill = color, y = ..prop..) 
) 


1.8 位 置 调整 


条 形 图 还 有 一 项 神奇 的 功能 ， 你 可 以 使 用 color 或 者 fil (这 个 更 有 用 ) 图 形 属性 来 为 条 
形 图 上 色 : 
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ggpLot(data = diamonds) + 

geom_bar(mapping = aes(x = cut, color = cut)) 
ggpLot(data = diamonds) + 

geom_bar(mapping = aes(x = cut, fill = cut)) 





20000- 


Far B 

z Good z Bco 
Ë 10000. Very Good 8 10000. Very Good 
Premium Premium 

ideal Boa 





Very Good — Premium 
cut 


注意 ， 如 果 将 fill 图 形 属性 映射 到 另 一 个 变量 (如 clarity), WALES AJDAR 
起 来 。 每 个 彩色 和 矩形 表示 cut 和 clarity 的 一 种 组 合 。 


ggpLot(data = diamonds) + 
geom_bar(mapping = aes(x = cut, fill = clarity)) 





0 


ldeal 


sooo- s= 
a — - E E 
š š š ša Fir Ged 





20000 - 

15000 - 
= 
= 
3 
© 10000- 

= 
.. E 
' ' ' ' ' 
Fair Good Very Good Premium Ideal 
cut 


m hh ME S= H position fk E BJ ur E 1892 Je ADER. HAL AVE pk HE ë yÇ 28 JÉ 
图 ， 你 还 可 以 使 用 以 下 3 种 选项 之 一 : "identity". "fill" 和 "dodge", 


e position = "identity" 将 每 个 对 象 直 接 显示 在 图 中 。 这 种 方式 不 太 适 合 条 形 图 ， 因 为 
条 形 会 彼此 重合 。 为 了 让 重生 部 分 能 够 显示 出 来 ， 我 们 可 以 设置 alpha 参数 为 一 个 较 小 
的 数 ， 从 而 使 得 条 形 略 微 透明 ， 或 者 设 定 fill = NA， 让 条 形 完全 透明 : 

ggplot( 
data = diamonds, 
mapping = aes(x = cut, fill = clarity) 
) + 
geom_bar(alpha = 1/5, position = "identity") 
ggplot( 
data = diamonds, 
mapping = aes(x = cut, color = clarity) 
) + 
geom_bar(fill = NA, position = "identity") 





Vay Oad Premi 


10000- 
5000- 
sss E 


20000- 


15000- 
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Very Good 8 10000- 
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aa 
5000- 








Good Voy eu Premium Ideal 


标识 位 置 调整 更 适合 2D 几何 对 象 ， 比 如 ， 点 的 标识 位 置 调整 是 默认 设置 。 


position = "fill" 的 效果 与 堆 又 相似 ， 但 每 组 堆 又 条 形 具有 同样 的 高 度 ， 


形 图 可 以 非常 轻松 地 比较 各 组 间 的 比例 : 


ggplot(data = diamonds) + 
geom_bar( 


mapping = aes(x = cut, fill = 


position = "fill" 


) 


1.00- 


0.75- 


0.25- 


0.00- 


position = "dodge" 将 每 组 中 的 条 形 依次 并 列 放 置 ， 


表示 的 具体 数值 
ggpLot(data = diamonds) + 
geom_bar( 


mapping = aes(x = cut, fill = 


position = "dodge" 


) 
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这 样 可 以 非常 轻松 地 比较 每 


个 条 形 
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此 外 还 有 一 种 位 置 调整 ， 虽 然 不 适合 条 形 图 ， 但 非常 适合 散 点 图 。 回 忆 一 下 我 们 的 第 一 张 


散 点 图 。 你 是 否 发 现 ， 虽 然 数据 集中 有 234 个 观测 值 ， 但 散 点 图 
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只 显示 了 126 个 点 ? 


7 


因为 hwy 和 displ 的 值 都 进行 了 舍 入 取 整 ， 所 以 这 些 点 显示 在 一 个 网 格 上 时 ,很 多 点 彼此 

















重 全 了。 这 个 问题 称 为 过 绘制 。 点 的 这 种 排列 方式 很 难看 出 数据 的 聚集 模式 。 数 据点 是 均 


匀 地 分 布 在 图 中 ， 还 是 存在 hwy 和 displ 的 特殊 组 合 ， 甚 中 包括 了 109 个 点 ? 


通过 将 位 置 调整 方式 设 为 “抖动 ， 可 以 避免 这 种 网 格 化 排列 。position 
个 数据 点 添加 一 个 很 小 的 随机 扰动 ， 这 样 就 可 以 将 重 县 的 点 分 散 玫 


点 会 收 到 同样 的 随机 扰动 : 


ggplot(data = mpg) + 


geom_point( 
mapping = aes(x = displ, y = hwy), 


position = "jitter" 
) 
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= "jitter" 为 每 
因为 不 可 能 有 两 个 








添加 随机 性 来 改善 图 形似 乎 是 一 种 奇怪 的 方式 ， 然 而 尽管 这 种 方式 会 损失 图 形 的 精确 性 ， 
但 可 以 大 大 提高 图 形 的 启发 性 。 因 为 这 种 操作 的 用 处 非常 大 ， 所 以 ggplot2 提供 了 geom_ 
point(position = "jitter") 的 一 种 快速 实现 方式 : geom_jitter()。 


要 想 了 解 有 关 位 置 调整 的 更 多 信息 ， 可 以 查看 每 种 调整 方式 的 帮助 页 面 : ?position 
dodge, ?position_fill. ?position_identity. ?position_jitter 和 ?position_stack。 
练习 

(1) 以 下 图 形 有 什么 问题 ? 应 该 如 何 改善 ? 


ggpLot(data = mpg, mapping = aes(x = cty, y = hwy)) + 
geom_point() 














° . 
. 
40- 
. 
.. 
. 
. 
. . 
°... 
sg °... 
- .. °. 
> eee... 
z °°... 
= e.e ooo 
ee eooo 
eee °... 
eeo o 
e. o . 
e o o 
° 
20- e. o oè 
°°. 
°°... 
ee °... 
e o o 
° 
. 
. 
' ' ' 0 ' 
10 15 20 25 30 35 


cty 
(2) geom_jitter() 使 用 哪些 参数 来 控制 抖动 的 程度 ? 
(3) 对 比 geom_jitter() 与 geom_count()。 


(4) geom_boxplot() 国 数 的 默认 位 置 调整 方式 是 什么 ?创建 mpg 数据 集 的 可 视 化 表示 来 演示 
= J 


1.9 坐标 系 


坐标 系 可 能 是 ggplot2 中 最 复杂 的 部 分 。 默 认 的 坐标 系 是 笛 卡 儿 直 角 坐标 系 ， 可 以 通过 其 
独立 作用 的 x 坐标 和 y 坐标 找到 每 个 数据 点 。 偶 尔 也 会 用 到 一 些 其 他 类 型 的 坐标 系 。 


。 coord_flip() 函数 可 以 交换 x 轴 和 y 轴 。 当 想 要 绘制 水 平 箱 线 图 时 ， 这 非常 有 用 。 它 也 
非常 适合 使 用 长 标签 ， 但 要 想 在 x 轴 上 不 重 且 地 安排 好 它们 是 非常 困难 的 : 


ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
geom_boxplot() 

ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
geom boxplot() + 
coord_flip() 
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。 coord_quickmap() 国 数 可 以 为 地 图 设置 合适 的 纵横 比 。 当 使 用 ggplot2 绘制 空间 数据 时 ， 
这 个 函数 特别 重要 (遗憾 的 是 本 书 不 涉及 空间 数据 ) : 


nz <- map_data("nz" 


ggplot(nz, aes(long, lat, group = group)) + 
geom_polygon(fill = "white", color = "black") 


ggplot(nz, aes(long, lat, group = group)) + 
geom_polygon(fill = "white", color = "black") + 
coord_quickmap() 


， -48- ' 
170 175 170 175 
long long 


° coord_polar() 函数 使 用 极 坐 标 系 。 极 坐标 系 可 以 揭示 出 条 形 图 和 鸡冠 花 图 间 的 一 种 有 
趣 联系 : 


bar <- ggplot(data = diamonds) + 

geom_bar( 
mapping = aes(x = cut, fill = cut), 
show.Legend = FALSE, 
width = 1 

) + 

theme(aspect.ratio = 1) + 

labs(x = NULL, y = NULL) 

















bar + coord_flip() 
bar + coord_polar() 
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练习 
(1) 使 用 coord_polar() 函数 将 堆 释 式 条 形 图 转换 为 饼 图 。 
(2) Labs() 函数 的 功能 是 什么 ?阅读 一 下 文档 。 
(3) coord_quickmap() 函数 和 coord_map() 函数 的 区 别 是 什么 ? 
(4) 下 图 表明 城市 和 公路 燃油 效率 之 间 有 什么 关系 ?为 什么 coord_fixed() 函数 很 重要 ? 
geom_abline() 函数 的 作用 是 什么 ? 
ggplot(data = mpg, mapping = aes(x = cty, y = hwy)) + 
geom point() + 


geom abline() + 
coord_fixed() 











1.10 ”图 形 分 层 语法 


在 前 面 几 节 中 ， 你 学 到 的 绝 不 仅仅 是 如 何 绘制 散 点 图 、 条 形 图 和 箱 线 图 ， 而 是 使 用 ggplot2 
绘制 任何 类 型 图 形 的 基础 知识 。 为 了 说 明 这 一 点 ， 我 们 向 前 面 的 代码 模板 中 添加 位 置 调 
整 、 统 计 变换 、 坐 标 系 和 分 面 ; 
ggpLot(data = <DATA>) + 
<GEOM_FUNCTION>( 
mapping = aes(<MAPPINGS>) ， 
stat = <STAT>, 
position = <POSITION> 
) + 
<COORDINATE_FUNCTION> + 
<FACET_FUNCTION> 


新 模板 有 7 个 参数 ， 即 模板 中 尖 括 号 内 的 部 分 。 实 际 上 ， 绘 图 时 几乎 不 需要 提供 所 有 的 7 
个 参数 ， 因 为 除了 数据 、 映 射 和 几何 对 象 函数 ，ggplot2 为 所 有 其 他 参数 提供 了 非常 有 用 的 
默认 设置 。 

模板 中 的 7 个 参数 一 同 组 成 了 图 形 语法 ， 即 用 于 建立 图 形 的 一 个 正式 语法 系统 。 你 可 以 将 
任何 图 形 精 确 地 描述 为 数据 集 、 几 何 对 象 、 映 射 集合 、 统 计 变 换 、 位 置 调整 、 坐 标 系 和 分 
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面 模式 的 一 个 组 合 ， 图 形 语法 正 是 基于 这 样 的 深刻 理解 构建 出 来 的 。 


为 了 说 明 图 形 语法 的 工作 方式 ， 我 们 看 一 下 如 何 从 头 开始 构建 一 个 基本 图 形 : 首先 需要 有 
一 个 数据 集 ， 然 后 〈 通 过 统计 变换 ) 将 其 转换 为 想 要 显示 的 信息 。 

















(1) 从 diamonds 数 据 (2) 使 用 stat_count() 函 数 
集 开 始 为 每 个 切割 值 计数 




















sns sss ss sssi ar 


0.23 Ideal E 398 243 Fair 1610 i 
0.21 Premium E = 59.8 61 326 3.89 3.84 2.31 pz Good 4906 1 
023 Good E VS1 569 65 327 405 407 2.31 Very Good 12082 1 
0.29 Premium |I VS2 624 58 334 420 423 2.63 Premium 13791 1 

J 3 


接 下 来 ， 你 可 以 选择 一 个 几何 对 象 来 表示 转换 后 的 数据 中 的 每 个 观测 值 ， 然 后 选择 几何 对 
象 的 图 形 属性 来 表示 数据 中 的 变量 ， 这 会 将 每 个 变量 的 值 映射 为 图 形 属性 的 水 平 。 

(3) 使 用 条 形 表示 每 个 观测 值 

(4) 将 每 个 条 形 的 fit1 属 性 映射 


为 . .count. .变量 
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下 一 步 是 选择 放置 几何 对 象 的 坐标 系 。 你 可 以 使 用 对 象 位 置 (对 和 象 本 身 的 一 个 图 形 属性 ) 
来 显示 x 变量 和 y 变量 的 值 。 这 样 就 生成 了 一 张 完整 的 图 。 但 你 还 可 以 进一步 调整 几何 对 
象 在 坐标 系 中 的 位 置 (位 置 调整 )， 或 者 将 图 划分 为 多 个 子 图 (分 面 )。 你 还 可 以 通过 添 
加 一 个 或 多 个 附加 图 层 对 图 进行 扩展 ， 其 中 每 个 附加 图 层 都 使 用 一 个 数据 集 、 一 个 几何 对 
象 、 一 个 映射 集合 、 一 个 统计 变换 和 一 个 位 置 调整 。 



























































(5) 在 笛 卡 儿 直 角 坐 (6) 映射 y 值 到 . .count..， 
Zaa x 值 到 cut 


out 
rair 
Ea 
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你 可 以 使 用 这 种 方法 构建 你 能 够 想象 到 的 任何 图 形 。 换 句 话说， 你 可 以 使 用 在 本 章 中 学 到 
的 代码 模板 来 构建 成 千 上 万 种 独特 的 图 形 。 




















第 2 章 


工作 流 : 基础 





现在 你 已 经 拥有 了 运行 R 代码 的 一 些 经 验 。 我 们 没有 介绍 太 多 细节 ， 但 你 肯定 已 经 掌握 
f R 的 基础 知识 ， 否 则 你 早已 诅 丧 地 将 本 书 束 之 高 风 了 。 当 开始 用 R 编程 时 ， 感 到 受挫 是 
很 自然 的 ， 因 为 R 甚至 对 标点 符号 都 非常 严格 ， 即 使 一 个 字符 的 错误 也 会 导致 问题 。 但 是 
当 有 了 一 些 心理 准备 后 ， 你 就 可 以 心安 理 得 地 接受 这 些 挫 折 ， 知 道 这 是 正常 的 ， 也 是 暂时 
的 : 每 个 人 都 会 遇 到 困难 ， 克 服 困 难 的 唯一 方法 就 是 不 断 尝试 。 

在 进一步 学 习 之 前 ， 必 须 先 确保 你 已 经 具有 了 运行 了 代码 的 坚实 基础 ， 并 且 掌 握 了 
RStudio 中 一 些 最 有 用 的 功能 。 


2.1 代码 基础 


为 了 让 你 尽快 学 会 绘图 ， 我 们 省 略 了 一 些 基础 知识 ， 现 在 就 来 复习 一 下 。 你 可 以 将 及 当 作 
计算 器 来 使 用 ， 

1 / 200 * 30 

#> [1] 0.15 

(59+73+2) /3 

#> [1] 44.7 

sin(pi / 2) 

#> [1] 1 


你 可 以 使 用 <- 来 创建 新 对 象 : 
x< 3 * 4 

创建 对 象 的 所 有 R 语句 〈 即 赋值 语句 ) 都 有 同样 的 形式 : 
object_name <- value 


在 阅读 这 行 代码 时 ， 你 可 以 在 脑海 中 默念 “ 某 个 对 象 名 得 到 了 某 个 值 ”。 
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你 可 能 会 进行 大 量 的 赋值 操作 ， 输 入 <- 太 痛 车 了 。 但 不 要 偷懒 使 用 =， 虽 然 = 确实 也 可 
以 赋值 ， 但 之 后 会 引起 混淆 。 你 可 以 使 用 RStudio 快捷 键 : Altt- (Alt 加 上 减 号 )。 注 意 ， 
RStudio 会 自动 在 <- 的 两 端 加 上 空格 ， 这 是 一 个 非常 好 的 编码 习惯 。 读 代码 是 苦 中 作乐 的 
一 件 事情 ， 因 此 ， 用 空格 让 你 的 眼睛 稍 感 轻松 吧 。 


22 ”对 象 名 称 


对 象 名 称 必须 以 字母 开头 ， 并 且 只 能 包含 字母 、 数 字 、_ 和 .。 如 果 想 让 对 象 名 称 具 有 描 
述 性 ， 那 么 就 应 该 在 使 用 多 个 单词 时 遵循 某 种 命名 惯例 。 我 推荐 使 用 snake case 命名 法 ， 
也 就 是 使 用 小 写 单词 ， 并 用 _ 分 隔 : 

i_use_snake_case 

otherPeopleUseCamelCase 


some .people.use.periods 
And_aFew.People_RENOUNCEconvention 


我 们 将 在 第 14 章 中 继续 讨论 编码 风格 。 
你 可 以 通过 输入 对 象 名 称 来 查看 这 个 对 象 : 


x 
#> [1] 12 


再 进行 赋值 : 

this_is_a_really_long_name <- 2.5 
要 想 查 看 这 个 变量 ， 可 以 使 用 RStudio 的 自动 完成 功能 : A “this”, FX Tab 键 ， 继 续 输 
入 字符 直到 完全 匹配 这 个 变量 ， 然 后 按 回 车 键 。 
哎呀 ， 我 们 犯 了 一 个 错误 ! this_is _a_really_long_name 的 值 应 该 是 3.5， 而 不 是 2.5。 这 
时 可 以 使 用 另 一 种 快捷 键 来 修改 对 象 。 在 命令 窗口 中 输入 “this”， 然 后 按 Ctrl+ 1 。 这 样 
就 可 以 列 出 所 有 输入 过 的 以 “this” 开 头 的 命令 。 使 用 箭头 键 上 下 移动 ， 然 后 按 回 车 键 重 
新 输入 该 命令 。 将 2.5 修改 为 3.5， 并 按 回 车 键 。 
再 进行 一 次 赋值 : 

r_rocks <- 2 ^ 3 
查看 一 下 这 个 对 象 : 

r_rock 

#> Error: object 'r_rock' not found 


R_rocks 
#> Error: object 'R_rocks' not found 


R 和 用 户 之 间 有 一 个 隐 含 约定 : R 可 以 赫 用 户 执行 那些 单调 乏味 的 计算 ,但 前 提 是 用 户 必 
须 输入 完全 精确 的 指令 。 不 能 有 输入 错误 ， 还 要 区 分 大 小 写 。 


2.3 ”函数 调用 
R 中 有 大 量 内 置 函 数 ， 调 用 方式 如 下 : 


























function_name(arg1 = vall, arg2 = val2, ...) 

我 们 尝试 使 用 seq() 函数 ， 它 可 以 生成 规则 的 数值 序列 ， 在 学 习 这 个 函数 的 同时 ， 我 们 还 
可 以 学 习 RStudio 的 更 多 有 用 功能 。 输 入 se， 并 按 Tab 键 。 这 时 会 弹出 所 有 可 能 的 自动 完 
成 命令 。 继 续 输入 (“q”) 以 消除 歧义 , 或 者 使 用 1 和 | 箭头 键 来 选择 ， 以 选 定 seq() K 
数 。 注 意 弹出 的 浮动 提示 信息 ， 它 可 以 告诉 你 这 个 函数 的 参数 和 作用 。 如 果 想 要 获得 更 多 
帮助 ， 按 Fl 键 就 可 以 在 右 下 角 窗 格 的 帮助 标签 页 中 看 到 详细 的 帮助 信息 。 

选 定 需要 的 函数 后 再 按 一 次 Tab 键 。RStudio 会 为 你 自动 添加 开 括 号 (() 和 闭 括号 O). 
输入 参数 1，10， 然 后 按 回 车 键 : 


seq(1, 10) 
# [il 1 2 3 4 5 6 7 8 910 


输入 以 下 代码 ， 你 会 发 现 RStudio 也 会 自动 完成 一 对 双 引 号 以 方便 输入 : 

x <- "hello world" 
引号 和 括号 必须 一 直 成 对 出 现 。RStudio 会 尽力 帮助 我 们 ， 但 还 是 有 出 错 并 导致 不 匹配 的 
可 能 。 如 果 出 现 不 匹配 ，R 会 显示 一 个 + 号 : 


> x <- "hello 
¥ 


+ 号 表明 有 在 等 待 继续 输入 ， 它 认为 你 还 没有 完成 输入 。 这 通常 意味 着 你 漏 掉 了 一 个 "或 
者 )。 你 可 以 添加 漏 掉 的 部 分 ， 也 可 以 按 Esc 键 中 止 命令 来 重新 输入 。 
如 有 果 进行 了 一 次 赋值 ，R 不 会 显示 出 赋值 结果 。 你 最 好 立刻 检查 一 下 : 


y <- seq(1, 10, length.out = 5) 
y 
#> [1] 1.00 3.25 5.50 7.75 10.00 


这 种 常用 的 操作 可 以 简化 一 下 ， 用 括号 将 赋值 语句 括 起 来 就 可 以 了 ， 这 样 相当 于 连续 执行 
赋值 语句 和 “输出 到 屏幕 ”的 操作 : 


(y <- seq(1, 10, length.out = 5)) 
#> [1] 1.00 3.25 5.50 7.75 10.00 


现在 看 一 下 左上 角 窗 格 中 的 程序 环境 : 


























Environment History Build Git =" 
€ EJ Import Dataset ç Z List > | @ 
(Ñ Global Environment + 
Values 

r_rocks 8 

this_is_a_really_1.. 2.5 

x "hello world" 

y num [1:5] 1 3.25 5.5 7.75 10 


你 可 以 在 这 里 看 到 创建 的 所 有 对 象 。 
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练习 
(1) 为 什么 以 下 代码 不 能 正常 运行 ? 
my_variable <- 10 
my_vartable 
#> Error in eval(expr, envir, enclos): 
#> object 'my_varıable' not found 
仔细 查看 ! (这 个 练习 似乎 没什么 意义 ， 但 却 是 对 思维 的 一 种 训练 ， 它 会 让 你 意识 到 ， 
在 编程 时 ， 即 使 一 点 微小 的 区 别 也 会 导致 程序 无 法 正常 运行 。) 
(2) 修改 以 下 每 段 R 代码 ， 使 其 可 以 正常 运行 。 


library(tidyverse) 











ggplot(dota = mpg) + 
geom_point(mapping = aes(x = displ, y = hwy)) 


fliter(mpg, cyl = 8) 
filter(diamond, carat > 3) 


(3) 按 AltrShiftrK 组 合 键 会 发 生 什么 情况 ?如 何 使 用 菜单 完成 同样 的 操作 ? 
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使 用 dplyr 进 行 数据 转换 





3.1 简介 


可 视 化 是 生成 见解 的 重要 工具 ， 但 它 需要 数据 格式 完全 符合 我 们 的 要 求 ， 这 种 情况 是 非常 
罕见 的 。 一 般 来 说 ， 你 需要 创建 一 些 新 变量 或 者 摘要 统计 量 ， 还 可 能 对 变量 进行 重 命名 或 
者 对 观测 值 进行 重新 排序 ， 以 便 数据 更 容易 处 理 。 你 将 在 本 章 中 学 会 如 何 进行 这 些 甚至 更 
多 操作 ， 本 章 将 教会 你 如 何 使 用 dplyr 包 来 转换 数据 ， 并 介绍 一 个 新 的 数据 集 : 2013 年 从 
纽约 市 出 发 的 航班 信息 。 


3.1.1 准备 工作 
本 章 将 重点 讨论 如 何 使 用 tidyverse 中 的 另 一 个 核心 R 包 一 一 dplyr 包 。 我 们 使 用 
nycflights13 包 中 的 数据 来 说 明 dplyr 包 的 核心 理念 ， 并 使 用 ggplot2 来 帮助 我 们 理解 数据 。 
library(nycflights13) 
library(tidyverse) 
加 载 tidyverse 时 ， 仔 细 查 看 输出 的 冲突 信息 ， 它 会 告诉 你 dplyr 覆盖 了 基础 R 包 中 的 哪些 
国 数 。 如 果 想 要 在 加 载 dplyr 后 使 用 这 些 国 数 的 基础 版 本 ， 那 么 你 应 该 使 用 它们 的 完整 名 
ER: stats::filter() 和 stats::Lag()。 












































3.1.2 nycflights13 

为 了 介绍 dplyr 中 的 基本 数据 操作 ， 我 们 需要 使 用 nycflights13::flights。 这 个 数据 框 包 
含 了 2013 年 从 纽约 市 出 发 的 所 有 336 776 次 航班 的 信息 。 该 数据 来 自 于 美国 交通 统计 局 ， 
可 以 使 用 ?flights 查看 其 说 明文 档 : 
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flights 
#> # A tibble: 336,776 x 19 
#> year month day dep_time sched_dep_time dep_delay 


#> <ints <int> <int> <int> <tnt> <dbl> 
#> 1 2013 1 1 517 515 2 
#> 2 2013 1 1 533 529 4 
#> 3 2013 1 í 542 540 2 
#> 4 2013 1 1 544 545 -1 
#> 5 2013 1 1 554 600 -6 
#> 6 2013 1 + 554 558 -4 
#> # ... with 336,776 more rows, and 13 more variables: 


#> # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tailnum <chr>, origin <chr>, 
#> # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm> 


你 或 许 会 发 现 ， 这 个 数据 框 的 输出 和 我 们 以 前 用 过 的 其 他 数据 框 有 一 点 差别 : 只 显示 了 前 
几 行 和 适合 屏幕 宽度 的 几 列 。( 要 想 看 到 整个 数据 集 ， 可 以 使 用 View(flights) 在 RStudio 
查看 器 中 打开 数据 集 。) 输出 有 差别 是 因为 flights 是 一 个 tibble。tibble 也 是 一 种 数据 框 ， 
只 是 进行 了 一 些小 小 的 修改 ， 使 其 更 适合 在 tidyverse 中 使 用 。 现 在 ， 你 不 必 关 心 它们 之 间 
的 区 别 ， 本 书 的 第 二 部 分 会 更 加 详细 地 介绍 tibble。 

你 或 许 还 会 发 现 ， 列 名 下 面 有 一 行 3 个 或 4 个 字母 的 缩写 。 它 们 描述 了 每 个 变量 的 类 型 。 
。 int 表示 整数 型 变量 。 

。 dbl 表示 双 精 度 浮 点 数 型 变量 ， 或 称 实数 。 

° chr 表示 字符 向 量 ， 或 称 字 符 串 。 
° dttm 表示 日 期 时 间 (日 期 + 时 间 ) 型 变量 。 

还 有 另外 3 种 常用 的 变量 类 型 ,虽然 没 有 在 这 个 数据 集中 出 现 ， 但 很 快 就 会 在 本 书后 面 遇 
到 。 

° lgl 表示 逻辑 型 变量 ， 是 一 个 仅 包括 TRUE 和 FALSE 的 向 量 。 

。 fctr 表示 因子 ，R 用 其 来 表示 具有 固定 数目 的 值 的 分 类 变量 。 


。 date 表示 日 期 型 变量 。 


3.1.3 dplyr 基 础 


我 们 将 在 本 章 中 学 习 5 个 dplyr 核心 函数 ， 它 们 可 以 帮助 你 解决 数据 处 理 中 的 绝 大 多 数 难 
题 。 


。 按 值 筛选 观测 (filter())。 

。 对 行进 行 重新 排序 (arrange())。 

。 按 名 称 选取 变量 (select())。 

。 使 用 现 有 变量 的 函数 创建 新 变量 (mutate())。 

。 将 多 个 值 总 结 为 一 个 摘要 统计 量 (summarize())。 


这 些 函 数 都 可 以 和 group_by() 国 数 联合 起 来 使 用 ，group_by() 函数 可 以 改变 以 上 每 个 函数 
的 作用 范围 ， 让 其 从 在 整个 数据 集 上 操作 变 为 在 每 个 分 组 上 分 别 操作 。 这 6 个 函数 构成 了 
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数据 处 理 语言 的 基本 操作 。 


前 面 5 个 函数 的 工作 方式 都 是 相同 的 。 
(1) 第 一 个 参数 是 一 个 数据 框 。 


(2) 随后 的 参数 使 用 变量 名 称 (不 带 引 号 ) 描述 了 在 数据 框 上 进行 的 操作 。 


(3) 输出 结果 是 一 个 新 数据 框 。 





利用 以 上 这 些 属 性 可 以 很 轻松 地 将 多 个 简单 步 又 链接 起 来 ， 从 而 得 到 非常 复杂 的 结果 。 接 
下 来 我 们 将 深入 了 解 ， 看 看 如 何 使 用 这 些 操 作 。 


3.2 ”使 用 filter() 筛 选 行 


filter() 函数 可 以 基于 观测 的 值 盘 选 
参数 以 及 随后 的 参数 是 用 来 得 选 数据 李 
月 1 日 的 所 有 航班 : 


filter(flights, month == 1, day 


#> 


如 果 运 行 这 行 代 码 ，dplyr 就 会 执 


改 输入 ， 


# A tibble: 842 x 19 


day dep_time 


F aa a a a 


1 


year month 
<int> <tnt> <ints 
1 2013 T 
2 2013 f 
3 2013 1 
4 2013 1 
5- 2013 si 
6 2013 1 
# . 
# 
# 
# 
# 





<int> 
517 
533 
542 
544 
554 
554 


z= ea" 


体 师 





一 个 观测 子 集 。 第 一 个 参数 是 数据 框 名 称 ， 第 二 个 
医 的 表达 式 。 例 如 ， 我 们 可 以 使 用 以 下 代码 筛选 出 1 


sched_dep_time dep_delay 


<int> 
515 
529 
540 
545 
600 
558 


. with 836 more rows, and 13 more variables: 

arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, 
carrier <chr>, flight <int>, tailnum <chr>,origin <chr>, 
dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
minute <dbl>, time_hour <dttm> 


选 操作 ， 并 返回 一 个 新 数据 框 。dplyr 函数 从 来 不 修 
因此 ， 如 果 想 要 保存 函数 结果 ， 那 么 你 就 需要 使 用 赋值 操作 符 <- : 


jan1 <- filter(flights, month == 1, day == 1) 


R 要 么 输出 结果 ， 要 么 将 结果 保存 在 一 个 变量 中 。 如 果 想 同时 完成 这 两 种 操作 ， 那 么 你 


以 用 括号 将 赋值 语句 括 起 来 : 


(dec25 <- filter(flights, month == 12, day == 25)) 


#> 
#> 





# A tibble: 719 x 19 

year month 

<int> <int> <int> 
1. 2013 12 25 
2: , 2013 12 25 
3 2013 12 25 
4 2013 12 25 
5 2013 12 25 
6 - 2013 12 25 


<dbl> 
2 


É UR. i 
+ O B. N + 





day dep_time sched dep_time dep_delay 


<int> 
456 
524 
542 
546 
556 
557 


<int> 
500 
515 
540 
550 
600 
600 


<dbl> 
-4 


©oa 1 
WU AANO 
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#> # ... with 713 more rows, and 13 more variables: 

办 > # arr_time <int>, sched arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tailnum <chr>,origin <chr>, 
#> # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm> 


3.2.1 比较 运算 符 
为 了 有 效 地 进行 筛选 ， 你 必须 知道 如 何 使 用 比较 运算 符 来 选择 观测 。R 提供 了 一 套 标 准 的 
比较 运算 符 : >、>=、<、<=、!= (不 等 于 ) 和 == (等 于 )。 
当 开 始 使 用 R 时 ， 最 容易 犯 的 错误 就 是 使 用 = 而 不 是 == 来 测试 是 否 相 等 。 当 出 现 这 种 情 
况 时 ， 你 会 收 到 一 条 有 启发 性 的 错误 消息 : 

filter(flights, month = 1) 

#> Error: filter() takes unnamed arguments. Do you need `==`? 
在 使 用 == 进行 比较 时 ， 你 可 能 还 会 遇 到 另 一 个 常见 问题 : 浮 点 数 。 下 面 的 结果 可 能 会 令 
你 目 瞪 口 采 : 

sart(2) Ü 2 == 2 

#> [1] FALSE 

1/49 * 49 == 1 

#> [1] FALSE 
计算 机 使 用 的 是 有 限 精 度 运算 (显然 无 法 存储 无 限 位 的 数 )， 因 此 请 记 住 ， 你 看 到 的 每 个 
数 都 是 一 个 近似 值 。 比 较 浮 点 数 是 否 相 等 时 ， 不 能 使 用 ==， 而 应 该 使 用 near(): 

near(sqrt(2) ^ 2, 2) 

#> [1] TRUE 


near(1 / 49 * 49, 1) 
#> [1] TRUE 


3.2.2 ”逻辑 运算 符 

filter) 中 的 多 个 参数 是 由 “与 ”组 合 起 来 的 : 每 个 表达 式 都 必须 为 真 才 能 让 一 行 观测 包 
含 在 输出 中 。 如 果 要 实现 其 他 类 型 的 组 合 ， 你 需要 使 用 布尔 运算 符 : & 表示 “与 "、| 表示 
“或 "、! 表示 “ 非 ”"。 下 图 给 出 了 布尔 运算 的 完整 集合 。 


(OY (On 
x&y (() ) es 


























y & !x 


x & !y 


Slels 





以 下 代码 可 以 找 出 11 月 或 12 月 出 发 的 所 有 航班 : 


filter(flights, month == 11 | month == 12) 


表达 式 中 的 运算 顺序 和 语言 中 的 是 不 一 样 的。 你 不 能 写成 filter(flights, month == 11 | 
12) 这 种 形式 。 这 种 形式 的 文字 翻译 确实 是 “ 找 出 11 月 或 12 月 出 发 的 所 有 航班 *， 但 在 代 
码 中 则 不 是 这 个 意思 ， 代 码 中 的 含义 是 找 出 所 有 出 发 月 份 为 11 | 12 的 航班 。11 | 12 这 个 
逻辑 表达 式 的 值 为 TRUE， 在 数字 语 境 中 (如 本 例 )，TRUE 就 是 1， 所 以 这 段 代码 找 出 的 不 
是 11 月 或 12 月 出 发 的 航班 ， 而 是 1 月 出 发 的 所 有 航班 。 真 是 够 绕 的 ! 


这 种 问题 有 一 个 有 用 的 简写 形式 : x %in% y。 这 会 选取 出 x 是 y 中 的 一 个 值 时 的 所 有 行 。 
我 们 可 以 使 用 这 种 形式 重 写 上 面 的 代码 : 


nov_dec <- filter(flights, month %in% c(11, 12)) 


有 了 时 你 可 以 使 用 德 摩根 定律 将 复杂 的 筛选 条 件 进行 简化 ，!1(x & y) 等 价 于 !x | !y、!(x | 
y) 等 价 于 !x & !y。 例 如 ， 如 果 想 要 找 出 延误 时 间 (到 达 或 出 发 ) 不 多 于 2 小 时 的 航班 ， 
那么 使 用 以 下 两 种 租 选 方式 均 可 : 


filter(flights, !(arr_delay > 120 | dep_delay > 120)) 
filter(flights, arr_delay <= 120, dep_delay <= 120) 


除 & 和 | 之 外 , R 中 还 有 8&& 和 || 运算 符 。 先 不 要 使 用 这 两 个 运算 符 ! 14.4 市 会 说 明 何 时 
使 用 它们 。 

只 要 filter() 函数 中 使 用 的 是 复杂 的 、 包 含 多 个 部 分 的 表达 式 ， 就 需要 雾 虑 用 一 个 明确 的 
变量 来 代替 它 。 这 样 检查 代码 会 容易 很 多 。 我 们 很 快 就 会 介绍 如 何 创建 新 变量 。 


3.2.3 缺失 值 


R 的 一 个 重要 特征 使 得 比较 运算 更 加 复杂 ， 这 个 特征 就 是 缺失 值 ， 或 称 NA (not available, 
不 可 用 )。NA 表示 未 知 的 值 ， 因 此 缺失 值 是 “可 传染 的 "。 如 果 运 算 中 包含 了 未 知 值 ， 那 么 
运算 结果 一 般 来 说 也 是 个 未 知 值 : 


NA > 5 
#> [1] NA 
10 == NA 
#> [1] NA 
NA + 10 
#> [1] NA 
NA / 2 
#> [1] NA 


最 令 人 费解 的 是 以 下 这 个 结果 : 


NA == NA 
#> [1] NA 


要 想 理解 为 什么 会 这 样 ， 最 容易 的 方式 是 加 入 一 点 背景 知识 : 


# 令 x 为 Mary 的 年 龄 。 我 们 不 知道 她 有 多 大 。 
x <- NA 
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# 令 y 为 John 的 年 龄 。 我 们 不 知道 他 有 多 大 。 
y <- NA 


# John 和 Mary 的 年 龄 是 相同 的 吗 ? 
x == 

#> [1] NA 

# 我 们 不 知道 ! 


如 果 想 要 确定 一 个 值 是 否 为 缺失 值 ， 可 以 使 用 is.na() 函数 : 


is.na(x) 
#> [1] TRUE 


filter() REME HREH TRUE 的 行 ， 它 会 排除 那些 条 件 为 FALSE 和 NA 的 行 。 如 果 想 保 
留 缺 失 值 ， 可 以 明确 指出 ， 


df <- tibble(x = c(1, NA, 3)) 
filter(df, x > 1) 
#> A tlbblée: 39 > 3 




















#> x 
#> <dbl> 
#> 1 3 


filter(df, is.na(x) | x > 1) 
Ws A Ebbles 2 3 


#> x 
#> <dbl> 
#> 1 NA 
#= 2 3 


3.24 练习 

(1) 找 出 满足 以 下 条 件 的 所 有 航班 。 

.到 达 时 间 延 误 2 小 时 或 更 多 的 航班 。 

. 飞 往 休斯顿 (IAH 机 场 或 HOU 机 场 ) 的 航班 。 

由 联合 航空 (United) 、 美 利 坚 航空 (American) 或 三 角 济 航空 (Delta) 运营 的 航班 。 

夏季 (7 月 、8 月 和 9 H) 出 发 的 航班 。 

， 到 达 时 间 延 误 超 过 2 小 时 ， 但 出 发 时 间 没 有 延误 的 航班 。 

延误 至 少 1 小 时 ， 但 飞行 过 程 弥 补 回 30 分 钟 的 航班 。 
g. 出 发 时 间 在 午夜 和 早上 6 点 之 间 (包括 0 点 和 6 点 ) 的 航班 。 

(2) dplyr 中 对 筛选 有 帮助 的 另 一 个 函数 是 between()。 它 的 作用 是 什么 ”你 能 使 用 这 个 函数 
来 简化 解决 前 面 问题 的 代码 吗 ? 

(3) dep_time 有 缺失 值 的 航班 有 多 少 ? 其 他 变量 的 缺失 值 情况 如 何 ? 这样 的 行 表示 什么 情 
况 ? 

(4) 为 什么 NA A 9 的 值 不 是 NA ? 为 什么 NA | TRUE 的 值 不 是 NA ? 为 什么 FALSE & NA 的 值 
不 是 NA ? 你 能 找 出 一 般 规 律 吗 ? (NA * 9 则 是 精妙 的 反例 ! ) 





m ° e. ° ce 
































3.3 ”使 用 arrange() 排 列 行 


arrange() 函数 的 工作 方式 与 fllter() 函数 非常 相似 ， 但 前 者 不 是 选择 行 ， 而 是 改变 行 的 
顺序 。 它 接受 一 个 数据 框 和 一 组 作为 排序 依据 的 列 名 (或 者 更 复杂 的 表达 式 ) 作为 参数 。 
如 果 列 名 不 只 一 个 ， 那 么 就 使 用 后 面 的 列 在 前 面 排序 的 基础 上 继续 排序 : 

arrange(flights, year, month, day) 


办 > # A tibble: 336,776 x 19 
#> year month day dep_time sched dep_time dep_delay 





#> <int> <int> <int> <int> <int> <dbl> 

#> 1 2013 Wi 1 517 515. 2 

#> 2 2013 1 T 533 529 4 

#> 3 2013 T 1 542 540 2 

#> 4 2013 T 1 544 545 -1 

#> 5 2013 1 T 554 600 -6 

#> 6 2013 T 1 554 558 -4 

办 > # ... with 3.368e+05 more rows, and 13 more variables: 

办 > # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tailnum <chr>, origin <chr>, 
办 > # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm> 


使 用 desc() 可 以 按 列 进行 降序 排序 : 


arrange(flights, desc(arr_delay)) 
#> # A tibble: 336,776 x 19 
#> year month day dep_time sched dep_time dep_delay 


#> <int> <int> <int> <int> <int> <dbl> 
#> 1 2013 1 9 641 900 1301 
#> 2 2013 6 15 1432 1935. 1137 
#> 3 -2013 1 10 1121 1635 1126 
#> 4 2013 9 20 1139 1845 1014 
#> 5 2013 Z 22 845 1600 1005 
#> 6 2013 4 10 1100 1900 960 
#> # ... with 3.368e+05 more rows, and 13 more variables: 
#> # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tailnum <chr>, origin <chr>, 
办 > # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm>, 
缺失 值 总 是 排 在 最 后 : 


df <- tibble(x = c(5, 2, NA)) 
arrange(df, x) 
#> # A tibble: 3 x 1 


#> X 
#> <dbl> 
#> 了 2 
#> 2 5 
#> 3 NA 


arrange(df, desc(x)) 
#> # A tibble: 3 x 1 
#> x 
#> <dbl> 
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#1 5 
#> 2 2 
#> 3 NA 


练习 

(D 如 何 使 用 arrange() 将 缺失 值 排 在 最 前 面 ? (提示 : 使 用 is.na()。) 
(2) 对 flights 排序 以 找 出 延误 时 间 最 长 的 航班 。 找 出 出 发 时 间 最 早 的 航班 。 
(3) 对 Flights 排序 以 找 出 速度 最 快 的 航班 。 

(4) 哪个 航班 的 飞行 时 间 最 长 ?哪个 最 短 ? 


3.4 ”使 用 select() 选 择 列 


如 今 ， 数 据 集 有 几 百 甚至 儿 千 个 变量 已 经 司空 见 惯 。 这 种 情况 下 ， 如 何 找 出 真正 感 兴趣 的 
那些 变量 经 常 是 我 们 面临 的 第 一 个 挑战 。 通 过 基于 变量 名 的 操作 ，select() 函数 可 以 让 你 
快速 生成 一 个 有 用 的 变量 子 集 。 


select() 函数 对 于 航班 数据 不 是 特别 有 用 ， 因 为 其 中 只 有 19 个 变量 ， 但 你 还 是 可 以 通过 
这 个 数据 集 了 解 一 下 select() 函数 的 大 致 用 法 ; 


# 按 名 称 选 择 列 

select(flights, year, month, day) 
#> # À ttbble: 336,776 x 3 

#> year month day 

#> <int> <int> <int> 


























#> 1 2013 1 T 

#> 2 2013 1 

#> 3 2013 s 1 

#> 4 2013 1 1 

#> 5 2013 1 t 

#> 6 2013 1 í 

#> # ... with 3.368e+05 more rows 


# 选择 “year” 和 “day” 之 间 的 所 有 列 (包括 “year” 和 “day”) 
select(flights, year:day) 

#> # A tibble: 336,776 x 3 

#> year month day 

#> <int> <int> <int> 


#> 1 2013 J 1 
#> 2 2013 í a 
#> 3 2013 1 1 
#> 4 2013 了 Ki 
#> 5 2013 1 T 
#> 6 2013 1 1 
#> # ... with 3.368e+05 more rows 


# 选择 不 在 “year” 和 “day” 之 间 的 所 有 列 (不 包括 “year” 和 “day”) 
select(flights, -(year:day)) 
#> # A tibble: 336,776 x 16 





#> dep_time sched dep_time dep_delay arr_time sched_arr_time 


#> <int> <int> <dbl> <int> <int> 
#> 1 517 515 2 830 819 
#> 2 533 529 4 850 830 
#> 3 542 540 2 923 850 
#> 4 544 545 -1 1004 1022 
#> 5 554 600 -6 812 837 
#> 6 554 558 -4 740 728 
#> # ... with 3.368e+05 more rows, and 12 more variables: 

办 > # arr_delay <dbl>, carrier <chr>, flight <int>, 

#> # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, 
#> # distance <dbl>, hour <dbl>, minute <dbl>, 

#> # time hour <dttm> 


还 可 以 在 select () 函数 中 使 用 一 些 辅助 函数 。 


° starts_with("abc"): 匹配 以 “abc” 开 头 的 名 称 。 

° ends_with("xyz"): 匹配 以 “xyz” 结 尾 的 名 称 。 

° contains("ijk"): 匹配 包含 “ijk” 的 名 称 。 

。 matches("(.)\\1"): 选择 匹配 正则 表达 式 的 那些 变量 。 这 个 正则 表达 式 会 匹配 名 称 中 有 
重复 字符 的 变量 。 你 将 在 第 10 章 中 学 习 到 更 多 关于 正则 表达 式 的 知识 。 

° num_range("x"，1:3): 匹配 x1、x2 和 x3。 


使 用 ?select 命令 可 以 获取 更 多 信息 。 


select() 可 以 重 命名 变量 ， 但 我 们 很 少 这 样 使 用 它 ， 因 为 这 样 会 丢掉 所 有 未 明确 提 及 的 变 
量 。 我 们 应 该 使 用 select() 函数 的 变 体 rename() 国 数 来 重 命名 变量 ， 以 保留 所 有 未 明确 
提 及 的 变量 : 

rename(flights, tail_num = tailnum) 


#> # A tibble: 336,776 x 19 
#> year month day dep_time sched dep_time dep_delay 














#> <int> <int> <int> <int> <int> <dbl> 
#> 1 2013 1 2 517 515 2 
#> 2 2013 1 1 533 529 4 
#> 3 2013 1 F 542 540 2 
#> 4 2013 Wi 1 544 545 -1 
#> 5 2013 1 1 554 600 -6 
#> 6 2013 1 f 554 558 -4 
#> # ... with 3.368e+05 more rows, and 13 more variables: 
办 > # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tail num <chr>, 

#> # origin <chr>, dest <chr>, air_time <dbl>, 

#> # distance <dbl>, hour <dbl>, minute <dbl>, 

#> # time hour <dttm> 


另 一 种 用 法 是 将 select() 国 数 和 everything() 辅助 函数 结合 起 来 使 用 。 当 想 要 将 几 个 变 
量 移 到 数据 框 开 头 时 ， 这 种 用 法 非常 奏效 : 

select(flights, time_hour, air_time, everything()) 

#> # A tibble: 336,776 x 19 


#> time_hour air_time year month day dep_time 
#> <dttm> <dbl> <int> <int> <int> <int> 
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#> 1 2013-01-01 05:00:00 227 2013 1 1 517 
#> 2 2013-01-01 05:00:00 227 2013 1 1 533 
#> 3 2013-01-01 05:00:00 160 2013 1 1 542 
#> 4 2013-01-01 05:00:00 183 2013 1 1 544 
#> 5 2013-01-01 06:00:00 116. 2013 1 £ 554 
#> 6 2013-01-01 05:00:00 350 2013 1 1 554 
#> # ... with 3.368e+05 more rows, and 13 more variables: 

#> # sched dep time <int>, dep_delay <dbl>, arr_time <int>, 
#> # sched arr_time <int>, arr_delay <dbl>, carrier <chr>, 
办 > # flight <int>, tailnum <chr>, origin <chr>, dest <chr>, 
#> # distance <dbl>, hour <dbl>, minute <dbl> 


练习 


(1) 从 flights 数据 集中 选择 dep_time, dep_delay. arr_time 和 arr_detay， 通 过 头脑 风暴 
找 出 尽 可 能 多 的 方法 。 


(2) 如 果 在 select() 函数 中 多 次 计 入 一 个 变量 名 ， 那 么 会 发 生 什么 情况 ? 
(3) one_of() 函数 的 作用 是 什么 ”为 什么 它 结合 以 下 向 量 使 用 时 非常 有 用 ? 


vars <- c( 
"year", "month", "day", "dep_delay", "arr_delay" 
) 


(9) 以 下 代码 的 运行 结果 是 否 出 乎 意料 ?选择 辅助 国 数 处 理 大 小 写 的 默认 方式 是 什么 ”如 何 
改变 默认 方式 ? 


select(flights, contains("TIME")) 


3.5 ”使 用 mutate() 添 加 新 变量 


除了 选择 现 有 的 列 ， 我 们 还 经 常 需要 添加 新 列 ， 新 列 是 现 有 列 的 函数 。 这 就 是 mutate() K 
数 的 作用 。 


mutate() 总 是 将 新 列 添加 在 数据 集 的 最 后 ， 因 此 我 们 需要 先 创建 一 个 更 狭窄 的 数据 集 ， 以 
便 能 够 看 到 新 变量 。 记 住 ， 当 使 用 RStudio 时 ， 查 看 所 有 列 的 最 简单 的 方法 就 是 使 用 View() 
函数 : 


flights_sml <- select(flights, 
year:day, 
ends_with("delay"), 
distance, 
air_time 
) 
mutate(flights_sml, 
gain = arr_delay - dep_delay, 
speed = distance / air_time * 60 
) 
#> # A tibble: 336,776 x 9 
#> year month day dep_delay arr_delay distance air_time 
办 > <int> <int> <int> <dbl> <dbl> <dbl> <dbl> 
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#> 1 2013 
#> 2 2013 
#> 3 2013 
#> 4 2013 
#> 5 2013 
#> 6 2013 
#> # 
#> # 

一 旦 创建 š 





F a aa aa a a 


F aa aa a a. 


1 


新 列 就 可 以 立即 使 用 : 


mutate(flights_sml, 


2 
4 
2 
-1 
-6 
-4 


gain = arr_delay - dep_delay, 


hours = air_time / 60, 


gain_per_hour = gain / hours 


办 > # A tibble: 336,776 x 10 
#> year month 
#>  <int> <int> <int> 


2013 
2013 
2013 
2013 
2013 
2013 


š 
$ O 8 À Ç N F 


1 


F aa aa aa a 


11 1400 22 
20 1416 227 
33 1089 160 
-18 1576. 183 
s25 762 116 
12 719 150 


. with 3.368e+05 more rows, and 2 more variables: 
gain <dbl>, speed <dbl> 


day dep_delay arr_delay distance air_time 


F aa a a a 


1 


<db 


l> 


过 


<dbl> <dbl> <dbl> 


11 1400 227 
20 1416 227 
33 1089 160 
-18 1576 183 
=25 762 116 
12 719 150 


. with 3.368e+05 more rows, and 3 more variables: 


#> # gain <dbl>, hours <dbl>, gain_per_hour <dbl> 


如 果 只 想 保留 新 变量 ， 可 以 使 用 transmute() 函数 : 





transmute(flights, 


gain = arr_delay - dep_delay, 


hours = air_ time / 60, 


gain_per_hour = gain / hours 


办 > # A tibble: 336,776 x 3 
办 > gain hours gain_per_hour 
#> <dbl> <dbl> 


#> 1 9 
#> 2 16 
#> 3 31 
#> 4 -17 
#> 5 -19 
#> 6 16 
#> # . 


3.78 
3,78 
267 
3,05 
1.93 
2,50 


<dbl> 
2.38 
4.23 
1162 
-5.57 
-9,83 
6.40 


3.5.1 常用 创建 函数 


创建 新 变量 的 多 种 函数 可 供 你 同 mutate) 一 同 使 用 。 最 重要 的 一 点 是 ， 这 种 国 数 必 须 是 向 
量化 的 : 它 必 须 接受 一 个 向 量 作为 输入 ， 并 返回 一 个 向 量 作为 输出 ， 而 且 输 入 向 量 与 输出 

















. with 3.368e+05 more rows 





向 量具 有 同样 数目 的 分 量 。 我 们 无 法 列 出 所 有 可 能 用 到 的 创建 国 数 ， 但 可 以 介绍 一 下 那些 


比较 常用 的 。 
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算术 运算 符 : +、-、*、/、^ 
它们 都 是 向 量化 的 ， 使 用 所 谓 的 “循环 法 则 ”。 如 果 一 个 参数 比 另 一 个 参数 得， 那么 前 
者 会 自动 扩展 到 同样 的 长 度 。 当 某 个 参数 是 单个 数值 时 ， 这 种 方式 是 最 有 效 的 : air 
time / 60、hours * 60 + minute 等 。 
算术 运算 符 的 另 一 用 途 是 与 我 们 后 面 将 很 快 学 到 的 聚集 函数 结合 起 来 使 用 。 例 如 ，x / 
sum(x) 可 以 计算 出 各 个 分 量 在 总 数 中 的 比例 ，y - mean(y) 可 以 计算 出 分 量 与 均值 之 间 
的 差 值 。 

模 运 算 符 : %/% 和 %% 
%/% (整数 除法 ) 和 %% CRR) 满足 x == y * (x %/% y) + (x %% y)。 模 运算 非常 好 
用 ， 因 为 它 可 以 拆 分 整数 。 例 如 ， 在 航班 数据 集中 ， 你 可 以 根据 dep_time 计算 出 hour 
和 minute: 














transmute(flights, 
dep_time, 
hour = dep_time %/% 100, 
minute = dep_time %% 100 
) 
#> # A tibble: 336,776 x 3 
#> dep time hour minute 


#> <int> <dbl> <dbl> 
| 517 5 I7 
#> 2 533 5 33 
#> 3 542 5 42 
#> 4 544 S; 44 
#> 5 554 5 54 
#> 6 554 5. 54 
#> # ... with 3.368e+05 more rows 


对 数 函 数 : log(). log2() 和 log10() 
在 处 理 取 值 范围 横 跨 多 个 数量 级 的 数据 时 ， 对 数 是 特别 有 用 的 一 种 转换 方式 。 它 还 可 以 
将 乘法 转换 成 加 法 ， 我 们 将 在 本 书 的 第 四 部 分 中 介绍 这 个 功能 。 


其 他 条 件 相 同 的 情况 下 ， 我 推荐 使 用 Log2() 国 数 ， 因 为 很 容易 对 其 进行 解释 : 对 数 
标 度 的 数值 增加 1 个 单位 ， 意 味 着 初始 数值 加 倍 ; 减少 1 个 单位 ， 则 意味 着 初始 数值 
减 半 。 
偏 移 函数 

lead() 和 lag() 国 数 可 以 返回 一 个 序列 的 领先 值 和 请 后 值 。 它 们 可 以 计算 出 序列 的 移动 
差 值 (如 x - Lag(x)) 或 发 现 序列 何 时 发 生 了 变化 (x != lag(x))。 它 们 与 group_by() 
组 合 使 用 时 特别 有 用 ， 你 很 快 就 会 学 到 group_by() 这 个 国 数 : 

(x <- 1:10) 

# [1] 1 2 3 4 5 6 7 8 910 

lag(x) 

# [1] MA 1 2 3 4 5 6 7 8 9 

lead(x) 

# [1] 2 3 4 5 6 7 8 910 M 



































累加 和 滚动 聚合 

R 提供 了 计算 累加 和 、 累 加 积 、 累 加 最 小 值 和 累加 最 大 值 的 国 数 : cumsum()、cumprod()、 
commin() 和 cummax(); dplyr 还 提供 了 cummean() 国 数 以 计算 累加 均值 。 如 果 想 要 计算 
滚动 聚合 〈( 即 滚动 窗口 求 和 ) ， 那 么 可 以 尝试 使 用 RcppRoll 包 : 

x 

#> [1] Y Z3 4 5 6 7.8 910 

cumsum(x) 

#> [1] 1 3 6 10 15 21 28 36 45 55 


cummean(x) 
#> Ja] 2.0 3,520 2.5. 3.0 3.5 4.0 4.5 5.0 5.5: 


雇 辑 比较 : as SEL. S >= 和 t= 
如 果 需 要 进行 一 系列 复杂 的 逻辑 运算 ， 那么 最 好 将 中 间 结 果 保 存在 新 变量 中 ， 这 样 就 可 
以 检查 是 否 每 一 步 都 符合 预期 。 


排 秩 
排 秩 国 数 有 很 多 ， 但 你 应 该 从 min_rank() 函数 开始 ， 它 可 以 完成 最 常用 的 排 秩 任 务 
(如 第 一 、 第 二 、 第 三 、 第 四 )。 上 默认 的 排 秩 方式 是 ， 最 小 的 值 获得 最 前 面 的 名 次 ， 使 用 
desc(x) 可 以 让 最 大 的 值 获得 最 前 面 的 名 次 : 
y <- EL 2, 2, NA, 3, 4) 
min_rank(y) 
#s [4] 过 2 2 NA 4 5 


min_rank(desc(y)) 
# [1] 5 3 3M 2 1 


如 果 min_rank() 无 法 满足 需要 ， 那 么 可 以 看 一 下 其 变 体 row_number()、dense_rank()、 
percent_rank(). cume_dist() 和 ntile()。 可 以 查看 它们 的 帮助 页 面 以 获得 更 多 信息 : 

















row_number(y) 

#> [1] 1 2 3M 4 5 
dense_rank(y) 

#> [1] 1 2 2M 3 4 
percent_rank(y) 

#> [1] 0.00 0.25 0.25 NA 0.75 1.00 
cume_dist(y) 

#> [1] 0.2 0.6 0.6 NA 0.8 1.0 


3.5.2 ”练习 

(1) 虽然 现在 的 dep_time 和 sched_dep_time 变量 方便 了 阅读， 但 不 适合 计算 ， 因 为 它们 实际 
上 并 不 是 连续 型 数值 。 将 它们 转换 成 一 种 更 方便 的 表示 形式 ， 即 从 午夜 开始 的 分 钟 数 。 

(2) 比 较 air_time 和 arr_time - dep_time。 你 期 望 看 到 什么 ?实际 又 看 到 了 什么 ? 如何 解 
决 这 个 问题 ? 

(3) 比较 dep_time, sched_dep_time 和 dep_delay。 你 期 望 这 3 个 数值 之 间 上 共有 何 种 关系 ? 

(4) 使 用 排 秩 国 数 找 出 10 个 延误 时 间 最 长 的 航班 。 如 何 处 理 名 次 相同 的 情况 ? 仔细 阅读 
min_rank() 的 帮助 文件 。 
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(5)1:3 + 1:10 会 返回 什么 ?为 什么 ? 
(6) R 提供 了 哪些 三 角 函 数 ? 


3.6 ”使 用 summarize( ) 进 行 分 组 摘要 


最 后 一 个 核心 函数 是 summarize()， 它 可 以 将 数据 框 折 和 县 成 一 行 : 


summarize(flights, delay = mean(dep_delay, na.rm = TRUE)) 
WA ibbler 3 32% 1 





#> delay 
#> <dbl> 
#> 1 12:6 


(我 们 很 快 就 会 解释 na.rm = TRUE 的 含义 。) 


如 果 不 与 group_by() 一 起 使 用 ， 那 么 summarize() 也 就 没什么 大 用 。group_by() 可 以 将 分 
析 单 位 从 整个 数据 集 更 改 为 单个 分 组 。 接 下 来 ， 在 分 组 后 的 数据 框 上 使 用 dplyr 国 数 时 ， 
它们 会 自动 地 应 用 到 每 个 分 组 。 例 如 ， 如 果 对 按 日 期 分 组 的 一 个 数据 框 应 用 与 上 面 完 全 相 
同 的 代码 ， 那 么 我 们 就 可 以 得 到 每 日 平均 延误 时 间 : 

by_day <- group_by(flights, year, month, day) 

summarize(by_day, delay = mean(dep_delay, na.rm = TRUE)) 


#> Source: local data frame [365 x 4] 
#> Groups: year, month [?] 
































#> year month day delay 
#> <int> <lnt> <int> <dbl> 


#> 1 2013 1 T, 31:55. 
#> 2 2013 1 2 13:86 
#> 3 2013 1 3 10:99 
#> 4 2013 1 4 8.95 
#> 5 2013 了 5 5; 73 
#> 2013 1 人 
#> # ... with 359 more rows 


group_by() 和 summarize() 的 组 合 构成 了 使 用 dplyr 包 时 最 常用 的 操作 之 一 : 分 组 摘要 。 在 
对 其 进行 更 深入 的 讨论 之 前 ， 我 们 需要 先 介 绍 一 个 功能 强大 的 新 概念 : 管道 。 


3.6.1 使 用 管道 组 合 多 种 操作 


假设 我 们 想 要 研究 每 个 目的 地 的 距离 和 平均 延误 时 间 之 间 的 关系 。 使 用 已 经 了 解 的 dplyr 
包 功 能 ， 你 可 能 会 写 出 以 下 代码 : 


by_dest <- group_by(flights, dest) 
delay <- summarize(by_dest, 
count = ni(); 
dist = mean(distance, na.rm = TRUE), 
delay = mean(arr_delay, na.rm = TRUE) 
) 
delay <- filter(delay, count > 20, dest != "HNL") 
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# 750 英 里 内 ， 平 均 延 误 时 间 会 随 着 距离 的 增加 而 增加 ， 接 着 会 随 着 距离 的 增加 而 减少 。 随 着 飞 
行距 离 的 增加 ， 延 误 时 间 有 可 能 会 在 飞行 中 弥补 回来 吗 ? 

ggpLot(data = delay, mapping = aes(x = dist, y = delay)) + 
geom_point(aes(size = count), alpha = 1/3) + 
geom_smooth(se = FALSE) 

#> `geom_ smooth()` using method = 'loess' 


40- 





30- * 
° count 
@ 4000 
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dist 
完成 数据 准备 需要 3 步 。 


(1) 按照 目的 地 对 航班 进行 分 组 。 

(2) 进行 摘要 统计 ， 计 算 距 离 、 平 均 延 误 时 间 和 航班 数量 。 

(3) 通过 筛选 除去 噪声 点 和 火 奴 鲁 鲁 机 场 ， 因 为 到 达 该 机 场 的 距离 几乎 是 到 离 它 最 近 机 场 的 
距离 的 2 倍 。 

这 段 代 码 写 起 来 有 点 令 人 泄气 ， 因 为 不 得 不 对 每 个 中 间 数 据 杠 命名， 尽管 我 们 根本 不 关心 

这 一 点 。 命 名 是 很 难 的 ， 这 样 做 会 影响 我 们 的 分 析 速 度 。 


解决 这 个 问题 的 另 一 种 方法 是 使 用 管道 ，%>%: 
delays <- flights %>% 
group_by(dest) %>% 
summarize( 
count 三 :而 ()， 
dist = mean(distance, na.rm = TRUE), 
delay = mean(arr_delay, na.rm = TRUE) 
) %>% 
filter(count > 20, dest != "HNL") 
这 种 方法 的 重点 在 于 转换 的 过 程 ， 而 不 是 转换 的 对 象 ， 这 使 得 代码 具有 更 好 的 可 读 性 。 你 
可 以 将 其 读 作 一 串 命 令 式 语句 : 分 组 ， 然 后 摘要 统计 ， 然 后 进行 算 选 。 在 阅读 代码 时 ，%>% 
最 好 读 作 “然后 ”。 


使 用 这 种 方法 时 ，x %>% f(y) 会 转换 为 f(x，y)， x %>% f(y) %>% g(z) 会 转换 为 g(f(x， 
y)，z)， 以 此 类 推 。 你 可 以 使 用 管道 重 写 多 种 操作 ， 将 其 变 为 能 够 从 左 到 右 或 从 上 到 下 阅 
读 。 从 现在 开始 ， 我 们 会 频繁 使 用 管道 方式 ， 因 为 它 可 以 显著 提高 代码 的 可 读 性 ， 我 们 将 
在 第 13 章 中 对 其 进行 更 详细 的 介绍 。 
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支持 管道 操作 是 tidyverse 中 的 R 包 的 核心 原则 之 一 。 唯 一 的 例外 就 是 ggplot2: 它 是 在 发 
现 管道 方式 前 开发 的 。ggplot2 的 下 一 个 版 本 ggvis 支持 管道 操作 ， 遗 憾 的 是 其 还 没有 达到 
成 熟 完 备 的 程度 。 


3.6.2 WAIE 


我 们 在 前 面 使 用 了 参数 na.rm， 你 应 该 非常 想 要 知道 其 含义 。 如 果 没 有 设置 这 个 参数 ， 会 
发 生 什么 情况 呢 ? 
flights %>% 


group_by(year, month, day) %>% 
summarize(mean = mean(dep_delay)) 








#> Source: local data frame [365 x 4] 
办 > Groups: year, month [?] 
#> 

#> year month day mean 
#> - <int> <int> <1ñt> <dbl> 
#> 1 2013 1 1 NA 
#> 2 2013 1 2 NA 
#> 3 2013 1 3 NA 
#> 4 2013 1 4 NA 
#> 5 2013 1 5 NA 
#> 6 2013 1 6 NA 
#> # ... with 359 more rows 


我 们 会 得 到 很 多 缺失 值 ! 这 是 因为 聚合 函数 遵循 缺失 值 的 一 般 规则 ， 如 有 果 输 入 中 有 缺失 





值 ， 那 么 输出 
去 缺失 值 ; 





会 是 缺失 值 。 好 在 所 有 聚合 函数 都 有 一 个 na.rm 参 数 ， 它 可 以 在 计算 前 除 


flights %>% 
group_by(year, month, day) %>% 
summarize(mean = mean(dep_delay, na.rm = TRUE)) 


#> Source: 
#> Groups: 
#> 

#> year 
办 > <int> 
#> 1 2013 
#> 2 2013 
#> 3 2013 
#> 4 2013 
#> 5 2013 
#> 6 2013 
#> # 


在 这 个 示例 中 ， 


local data frame [365 x 4] 
year, month [?] 


month day mean 
<int> <int> <dbl> 
1 11:53 
13.86 
10.99 
8.95 
5.73 
TaS. 


R K R 
Q a À Ç N Fa 


1 


. with 359 more rows 


缺失 值 表 示 取 消 的 航班 ， 我 们 也 可 以 通过 先 去 除 取消 的 航班 来 解决 缺失 值 


问题 。 保 存 这 个 数据 集 ， 以 便 我 们 可 以 在 接 下 来 的 几 个 示例 中 继续 使 用 : 


not_cancelled <- flights %>% 
filter(!is.na(dep_delay), !is.na(arr_delay)) 


not_cancelled %>% 





<= 
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group_by(year, month, day) %>% 

summarize(mean = mean(dep_delay)) 
#> Source: local data frame [365 x 4] 
#> Groups: year, month [?] 


#> year month day mean 
#> <tint> <int> <int> <dbl> 


#> 1 2013 了 1 11.44 
#> 2 2013 1 2 13.68 
#> 3 -2013 1 3 10.91 
#> 4 2013 1 4 8.97 
#> 5 2013 1 5 : 5.73 
#> 6 2013 1 6 7.15 
#> # ... with 359 more rows 


3.6.3 ”计数 


聚合 操作 中 包括 一 个 计数 nO) 或 非 缺 失 值 的 计数 (sum(!is_na())) 是 个 好 主意 。 这 样 
你 就 可 以 检查 一 下 ， 以 确保 自己 没有 基于 非常 少量 的 数据 作出 结论 。 例 如 ， 我 们 查看 一 下 
具有 最 长 平均 延误 时 间 的 飞机 〈 通 过 机 尾 编号 进行 识别 ) : 
delays <- not_cancelled %>% 
group_by(tailnum) %>% 
summarize( 


delay = mean(arr_delay) 


) 








ggplot(data = delays, mapping = aes(x = delay)) + 
geom_freqpoly(binwidth = 10) 


1500 - 


1000 - 


count 


500- 


0 100 200 300 
delay 


HE] 有 些 飞机 的 平均 延误 时 间 长 达 5 小 时 (300 分 钟 ) ! 


这 个 情况 确实 有 些微 妙 。 我 们 可 以 画 一 张 航 班 数量 和 平均 延误 时 间 的 散 点 图 ， 以 便 获 得 更 
深刻 的 理解 
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delays <- not_cancelled %>% 
group_by(tailnum) %>% 
summarize( 
delay = mean(arr_delay, na.rm = TRUE), 


n = n() 
) 


ggplot(data = delays, mapping = aes(x = n, y = delay)) + 
geom_point(alpha = 1/10) 


300- 














结果 并 不 出 平 意料 ， 当 航班 数量 非常 少时 ， 平 均 延误 时 间 的 变动 特别 大 。 这 张 图 的 形状 非 
常 能 够 说 明 问题 : 当 绘制 均值 〈 或 其 他 摘要 统计 量 ) 和 分 组 规模 的 关系 时 ， 你 总 能 看 到 随 
着 样本 量 的 增加 ， 变 动 在 不 断 减 小 。 

查看 此 类 图 形 时 ， 通 常 应 该 饰 选 掉 那 些 观测 数量 非常 少 的 分 组 ， 这 样 你 就 可 以 避免 受到 特 
别 小 的 分 组 中 的 极端 变动 的 影响 ， 进 而 更 好 地 发 现 数据 模式 。 这 就 是 以 下 代码 要 做 的 工 
作 ， 同 时 还 展示 了 将 ggplot2 集成 到 dplyr 工作 流 中 的 一 种 有 效 方式 。 从 %>% 过 渡 到 + 会 令 


人 感到 不 适应 ， 但 掌握 其 中 的 要 领 后 ， 这 种 写法 是 非常 方便 的 : 














delays %>% 
filter(n > 25) %>% 
ggplot(mapping = aes(x = n, y = delay)) + 
geom_point(alpha = 1/10) 





100 200 300 400 500 





RStudio 技巧 : Ctrl+Shiftt+P 是 非常 有 用 的 组 合 键 ， 可 以 将 上 一 次 从 编辑 器 发 
送 到 控制 台 的 代码 段 重新 发 送 一 次 。 例 如 ， 当 在 上 个 示例 中 试验 n 的 值 时 ， 
使 用 这 个 组 合 键 就 特别 方便 。 你 可 以 使 用 Ctrl+Enter 将 整 段 代码 发 送 到 控制 
台 ， 然 后 修改 n 的 值 ， 再 按 Ctrl+Shift+P 就 可 以 重新 发 送 整 段 代码 。 











这 种 数据 模式 还 有 另外 一 种 常见 的 变 体 。 我 们 看 一 下 棒球 击 球 手 的 平均 表现 与 击 球 次 数 之 

间 的 关系 。 我 们 使 用 Lahman 包 中 的 数据 来 计算 大 联盟 的 每 个 棒球 队员 的 打击 率 〈 安 打数 / 

打数 )。 

当 我 绘制 出 击 球 手 的 能 力 (用 打击 率 ba 衡量 ) 与 击 球 机 会 数量 (用 打数 ab 衡量 ) 之 间 的 

关系 时 ， 你 可 以 看 到 两 种 模式 。 

。 同上 ， 数 据点 越 多 ， 聚 合 值 的 变动 就 越 小 。 

° 能 力 (ba) 和 击 球 机 会 数量 (ab) 之 间 存 在 正 相关 。 这 是 因为 球 队 会 控制 击 球 手 的 出 场 ， 
很 显然 ， 球 队 会 优先 选择 最 好 的 队员 。 


# 转换 成 tibble， 以 便 输出 更 美观 
batting <- as_tibble(Lahman::Batting) 














batters <- batting %>% 
group_by(playerID) %>% 
summarize( 
ba = sum(H, na.rm = TRUE) / sum(AB, na.rm = TRUE), 
ab = sum(AB, na.rm = TRUE) 
) 


batters %>% 
filter(ab > 100) %>% 
ggplot(mapping = aes(x = ab, y = ba)) + 
geom point() + 
geom_smooth(se = FALSE) 
#> “geom _ smooth(). using method = 'gam' 
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这 对 球员 排名 也 有 重要 影响 。 如 果 只 是 使 用 desc(ba) 进行 排序 ， 明 显 受益 的 将 是 具有 最 好 
打击 率 的 球员 ， 而 不 是 能 力 最 高 的 球员 : 


batters %>% 
arrange(desc(ba)) 

#> # A tibble: 18,659 x 了 

#> playerID ba ab 


#> <ċhr> <dbl> <ints 
#> 1 abramge01 1 了 
#> 2 banisje01 1 1 
#> 3 bartocl01 1 1 
#> 4 bassdo01 1 1 
#> 5 birasst01 1 2 
#> 6 bruneju01 1 1 
办 > # ... with 1.865e+04 more rows 


你 可 以 在 http://varianceexplained.org/r/empirical_bayes_baseball/ 和 http://www.evanmiller. 
org/how-not-to-sort-by-average-rating.html 中 找到 有 关 这 个 问题 的 精彩 解释 。 


3.6.4 ”常用 的 摘要 函数 
只 使 用 均值 、 计 数 和 求 和 是 远 远 不 够 的 ，R 中 还 提供 了 很 多 其 他 的 常用 的 摘要 函数 。 
位 置 度量 
经 使 用 过 mean(x)， 但 median(x) 也 非常 有 用 。 均 值 是 总 数 除 以 个 数 ， 中 位 数 则 
这 样 一 个 值 : 50% 的 x 大 于 它 ， 同 时 50% 的 x 小 于 它 。 


有 时 候 需 要 将 聚合 函数 和 钦 辑 筛选 组 合 起 来 使 用 。 我 们 还 没有 讨论 过 这 种 取 数 据 子 集 的 
方法 ，15.5.2 节 将 对 此 进行 深入 介绍 。 


not_cancelled %>% 
group_by(year, month, day) %>% 
summarize( 
# 平均 延误 时 间 : 
avg_delay1 = mean(arr_delay), 
# 平均 正 延 误 时 间 : 
avg_delay2 = mean(arr_delay[arr_delay > 0]) 
) 
#> Source: local data frame [365 x 5] 
#> Groups: year, month [?] 











#> 

#> year month day avg_delay1 avg_delay2 
#> <int> <üint> <int> <dbl> <dbl> 
#> 1 2013 1 1 12.65 32, 5 
#> 2 2013 1 2 12,69 32,0 
#> 3 2013 1 3 5: 73 27.7 
#> 4 2013 1 4 =, 93 28.3 
#> 5 2013 1 S =1. 53 226 
#> 6 2013 1 6 4.24 24.4 
#> # ... with 359 more rows 





分 散 程 度 度量 : sd(x)、IQR(x) 和 mad(x) 
均 方 误差 〈 又 称 标准 误差 ，standard deviation, sd) 是 分 散 程度 的 标准 度量 方式 。 四 分 
位 距 IQR() 和 绝对 中 位 差 mad(x) 基本 等 价 ， 更 适合 有 离 群 点 的 情况 : 


# 为 什么 到 某 些 目的 地 的 距离 比 到 其 他 目的 地 更 多 变 ? 
not_cancelled %>% 
group_by(dest) %>% 
summarize(distance_sd = sd(distance)) %>% 
arrange(desc(distance_sd)) 
#> # A tibble: 104 x 2 
#> dest distance sd 








#> <chr> <dbl> 
#> 1 EGE 10.54 
#> 2 SAN 10:35 
#> 3 SFO 10.22 
#> 4 HNL 10.00 
#> 5 SEA 9. 98 
#> 6 LAS 9.91 
#> # ... with 98 more rows 


秩 的 度量 : min(x), quantile(x, 0.25) 和 max(x) 
分 位 数 是 中 位 数 的 扩展 。 例 如 ，quantile(x，0.25) 会 找 出 x 中 按 从 小 到 大 顺序 大 于 前 
25% 而 小 于 后 75% 的 值 : 


# 每 天 最 早 和 最 晚 的 航班 何 时 出 发 ? 
not_cancelled %>% 
group_by(year, month, day) %>% 
summarize( 
first = min(dep_time), 
last = max(dep_time) 
) 
#> Source: local data frame [365 x 5] 
#> Groups: year, month [?] 


#> year month day first last 
#> <int> <int> <int> <int> <int> 


#> 1 2013 1 1 517 2356 
#> 2 2013 1 2 42 2354 
#> 3 2013 T 3 32 2349 
#> 4 2013 1 4 25 2358 
#> 5 2013 1 5 1⁄4 2357 
#> 6 2013 1 6 16. <2355 
#> # ... with 359 more rows 


定位 度量 : first(x). nth(x, 2) 和 Last(x) 
这 几 个 函数 的 作用 与 x[1]、x[2] 和 x[Length(x)] 相同 ， 只 是 当 定位 不 存在 时 (比如 堂 
试 从 只 有 两 个 元 素 的 分 组 中 得 到 第 三 个 元 素 )， 前 者 允许 你 设置 一 个 默认 值 。 例 如 ， 我 
们 可 以 找 出 每 天 最 早 和 最 晚 出 发 的 航班 : 
not_cancelled %>% 
group_by(year, month, day) %>% 


summarize( 
first_dep = first(dep_time), 
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Last_dep = last(dep_time) 
) 
#> Source: local data frame [365 x 5] 
#> Groups: year, month [?] 


#> 

#> year month day first_dep last_dep 
#> <ints <üint> <int> thts sints 
#> 1 2013 1 í 517 2356 
#> 2 2013 1 2 42 2354 
#> 3 2013 1 3 32 2349 
#> 4 2013 1 4 25 2358 
#> 5 2013 1 5 14 2357 
#> 6 2013 1 6 16 2355 
办 > # ... with 359 more rows 


这 些 国 数 对 筛选 操作 进行 了 排 秩 方面 的 补充 。 得 选 会 返回 所 有 变量 ， 每 个 观测 在 单独 的 
not_cancelled %>% 
group_by(year, month, day) %>% 
mutate(r = min_rank(desc(dep_time))) %>% 
filter(r %in% range(r)) 
#> Source: local data frame [770 x 20] 
#> Groups: year, month, day [365] 


#> 
#> year month day dep_time sched dep_time dep_delay 
#> <int> <iñt> <ints <int> <int> <dbl> 
#> 1 2013 1 1 S17 515 2 
#> 2 2013 1 1 2356 2359 -3 
#> 3 2013 1 2 42 2359 43 
#> 4 2013 1 2 2354 2359 -5 
#> 5 2013 1 3 32 2359 tE; 
#> 6 2013 1 3 2349 2359 -10 
#> # ... with 764 more rows, and 13 more variables: 
办 > # arr_time <int>, sched_arr_time <int>, 
#> # arr_delay <dbl>, carrier <chr>, flight <int>, 
办 > # tailnum <chr>, origin <chr>, dest <chr>, 
#> # air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm>, r <int> 

计数 


你 已 经 见 过 n()， 它 不 需要 任何 参数 ， 并 返回 当前 分 组 的 大 小 。 如 果 想 要 计算 出 非 
缺失 值 的 数量 ， 可 以 使 用 sum(!is.na(x))。 要 想 计算 出 唯一 值 的 数量 ， 可 以 使 用 n_ 
distinct(x): 


# 哪个 目的 地 具有 最 多 的 航空 公司 ? 

not_cancelled %>% 
group_by(dest) %>% 
summarize(carriers = n_distinct(carrier)) %>% 
arrange(desc(carriers)) 

#> # A tibble: 104 x 2 


#> dest carriers 
#> <chr> <int> 
> ATL 7 





邮 


#> # ... 


š 
S Q + Ü PNN 


BOS f: 
CLT A 
ORD 7 
TPA 7. 
AUS 6 


with 98 more rows 





因为 计数 太 常 用 了 ， 所 以 dplyr 提供 了 一 个 简单 的 辅助 函数 ， 用 于 只 需要 计数 的 情况 : 


not_cancelled %>% 


count(dest) 

#> # A tibble: 104 x 2 
#> dest n 

#> <chr> <int> 

#> 1 ABQ 254 

#> 2 ACK 264 

#> 3 ALB 418 

#> 4 ANC 8 

#> 5 ATL 16837 

#> 6 AUS 2411 

#> # ... with 98 more rows 





你 还 可 以 选择 提供 一 个 加 权 变 量 。 例 如 ， 你 可 以 使 用 以 下 代码 算出 每 架 飞 机 飞行 的 总 里 程 
数 〈 实 际 上 就 是 求 和 ) : 
not_cancelled %>% 


count(tailnum, wt = distance) 
#> # 


1 
2 
3 
#> 4 
5 
6 
# 


A tibble: 4,037 x 2 
tailnum n 
<chr> <dbl> 
D942DN 3418 
NOEGMQ 239143 
N10156 109664 
N102UW 25722 
N103US 24619 
N104UW 24616 
. with 4,031 more rows 


逻辑 值 的 计数 和 比例 : sum(x > 10) 和 mean(y == 0) 
当 与 数值 型 国 数 一 同 使 用 时 ，TRUE 会 转换 为 1，FALSE 会 转换 为 0。 这 使 得 sum() 和 mean() 
非常 适用 于 逻辑 值 ，sum(x) 可 以 找 出 x 中 TRUE 的 数量 ，mean(x) 则 可 以 找 出 比例 。 


# 多 少 架 航班 是 在 早上 5 点 前 出 发 的 ? (这 通常 表明 前 一 天 延误 的 航班 数量 ) 
not_cancelled %>% 

group_by(year, month, day) %>% 

summarize(n_early = sum(dep_time < 500)) 

Source: local data frame [365 x 4] 

Groups: year, month [?] 


1 
2 
3 


year month day n_early 
<int> <int> <int> <int> 


2013 1 1 0 
2013 1 2 3 
2013 1 3 4 





使 用 dplyr 进 行 数 据 转换 | 55 


#> 4 2013 1 4 3 
#> 5 2013 2 S 3 
#> 6 2013 1 6 2 
#> # ... with 359 more rows 


# 延误 超过 1 小 时 的 航班 比例 是 多 少 ? 


not_cancelled %>% 


group_by(year, month, day) %>% 
summarize(hour_perc = 


#> Source: 


#> Groups: year, month [?] 


#> year month 
#> <int> <iñt> <ints 


2013 
2013 
2013 
2013 
2033 
2013 


Y 
$ O a + Ç N Fa 


1 


F A R a 


1 


day hour_perc 


Q + ÇQ N 


6 


<dbl> 
0722 
0851 
0567 
0396 
0349 
0470 


SS 


. with 359 more rows 


3.6.5” 按 多 个 变量 分 组 


当 使 用 多 个 变量 进 


数据 集 进行 循序 渐进 的 分 析 : 


daily <- group_by(flights, year, month, day) 


(per_day 
#> Source: 


了 分 组 时 ， 每 次 的 摘要 乡 


<- summarize(daily, flights 
local data frame [365 x 4] 


#> Groups: year, month [?] 


#> year month 
#> <int> <lnt> <int> 


#> 1 2013 
#> 2 2013 
#> 3 2013 
#> 4 2013 
#> 5 2013 
#> 6 2013 
#> # 


J 


F a a a 


{1 


day flights 


Q 人 wm 


6 


<iñt> 
842 
943 
914 
915 
720 
832 


. with 359 more rows 


mean(arr_delay > 60)) 
local data frame [365 x 4] 


充 计 会 用 掉 一 个 分 组 变量 。 这 样 





= n())) 


(per_month <- summarize(per_day, flights = sum(flights))) 


#> Source: 


local data frame [12 x 3] 
#> Groups: year [?] 


#> year month flights 
#> <int> <int> 


2013 
2013 
2013 
2013 
2013 


š 
Q + (Ó N 


Q + Ç N 


<int> 
27004 
24951 
28834 
28330 
28796 


就 可 以 轻松 地 对 





办 6 2013 6 28243 
#> # ... with 6 more rows 


(per_year <- summarize(per_month, flights = sum(flights))) 
#> # A tibble: 1 * 2 

#> year flights 

#> -<int> <lnt> 

#> 1 2013 336776 


在 循序 渐进 地 进行 摘要 分 析 时 ， 需 要 小 心 : 使 用 求 和 与 计数 操作 是 没 问题 的 ， 但 如 果 想 要 
使 用 加 权 平 均 和 方差 的 话 ， 就 要 仔细 考虑 一 下 ， 在 基于 秩 的 统计 数据 (如 中 位 数 ) 上 是 无 
法 进行 这 些 操作 的 。 换 句 话 说 ， 对 分 组 求 和 的 结果 再 求 和 就 是 对 整体 求 和 ， 但 分 组 中 位 数 
的 中 位 数 可 不 是 整体 的 中 位 数 。 


3.6.6 ”取消 分 组 
如 果 想 要 取消 分 组 ， 并 回 到 未 分 组 的 数据 继续 操作 ， 那 么 可 以 使 用 ungroup() 函数 : 


daily %>% 
ungroup() %>% # 不 再 按 日 期 分 组 
summarize(flights = n()) # 所 有 航班 

#> # A tibble: 1 x 1 





#> flights 
#> sints 
#> 1 336776 


3.6.7 ”练习 
(1) 通过 头脑 风暴 ， 至 少 找 出 5 种 方法 来 确定 一 组 航班 的 典型 延误 特征 。 思 考 以 下 场景 。 
一 架 航班 50% 的 时 间 会 提前 15 分 钟 ，50% 的 时 间 会 延误 15 分 钟 。 
一 架 航 班 总 是 会 延误 10 分 钟 。 
一 架 航班 50% 的 时 间 会 提前 30 分 钟 ，50% 的 时 间 会 延误 30 分 钟 。 
一 架 航 班 99% 的 时 间 会 准时 ，1% 的 时 间 会 延误 2 个 小 时 。 
哪 一 种 更 重要 : 到 达 延 误 还 是 出 发 延误 ? 
(O) 找 出 另外 一 种 方法 ， 这 种 方法 要 可 以 给 出 与 not_canceLLed %>% count(dest) 和 not_ 
cancelled %>% count(tailnum, wt = distance) 同样 的 输出 (不 能 使 用 count() ) 。 
(3) 我 们 对 已 取消 航班 的 定义 (is.na(dep_delay)) | (is.na(arr_delay)) HARE. Att 
Z? 哪 一 列 才 是 最 重要 的 ? 
(4) 查看 每 天 取消 的 航班 数量 。 其 中 存在 模式 吗 ? 已 取消 航班 的 比例 与 平均 延误 时 间 有 关 
系 吗 ? 
(53) 哪 个 航空 公司 的 延误 情况 最 严重 ? 挑战 : 你 能 否 分 清 这 是 由 于 糟糕 的 机 场 设备 ， 还 
是 航空 公司 的 问题 ? 为 什么 能 ? 为 什么 不 能 ? (提示 : 考虑 一 下 fLights %>% group_ 
by(carrier, dest) %>% summarize(n()),) 
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(6) 计算 每 架 飞 机 在 第 一 次 延误 超过 1 小 时 前 的 飞行 次 数 。 
(7) count() 函数 中 的 sort 参数 的 作用 是 什么 ” 何 时 应 该 使 用 这 个 参数 ? 


3.7 分 组 新 变量 (和 筛选 器 ) 


然 与 summarize() 国 数 结合 起 来 使 用 是 最 有 效 的 ， 但 分 组 也 可 以 与 mutate() 和 filter() 
— O S 5). 


° 找 出 每 个 分 组 中 最 差 的 成 员 : 


flights_sml %>% 
group_by(year, month, day) %>% 
filter(rank(desc(arr_delay)) < 10) 
#> Source: local data frame [3,306 x 7] 
#> Groups: year, month, day [365] 


#> 

#> year month day dep_delay arr_delay distance 
#> <int> <int> <int> <dbl> <dbl> <dbl> 
#> 1 2013 1 1 853 851 184 
#> 2 2013 1 1 290 338 1134 
#> 3 2013 1 1 260 263 266 
#> 4 2013 1 1 157 174 213 
#> 5 2013 1 1 216 222 708 
#> 6 2013 1 1 255 250 589 
#> # ... with 3,300 more rows, and 1 more variables: 
办 > # qir_time <dbl> 


。 找 出 大 于 某 个 国 值 的 所 有 分 组 : 


popular_dests <- flights %>% 
group_by(dest) %>% 
fulter(n() > 365) 
popuLar_dests 
#> Source: local data frame [332,577 x 19] 
#> Groups: dest [77] 


#> 

#> year month day dep_time sched dep_time dep_delay 
#> <ints <int> <ints <int> <iħñt> <dbl> 
#> 1 2013 1 T 517 515 2 
#> 2 2013 1 1 533 529 4 
#> 3 2013 1 1 542 540 2 
#> 4 2013 1 1 544 545 -1 
#> 5 2013 了 í 554 600 -6 
#> 6 2013 1 1 554 558 -4 
#> # ... with 3.326e+05 more rows, and 13 more variables: 
办 > # arr_time <int>, sched_arr_time <int>, 

办 > # arr_delay <dbl>, carrier <chr>, flight <int>, 

#> # tailnum <chr>, origin <chr>, dest <chr>, 

办 > # air_time <dbl>, distance <dbl>, hour <dbl>, 

#> # minute <dbl>, time_hour <dttm> 


。 对 数据 进行 标准 化 以 计算 分 组 指标 : 





popular_dests %>% 
filter(arr_delay > 0) %>% 
mutate(prop_delay = arr_delay / sum(arr_delay)) %>% 
select(year:day, dest, arr_delay, prop_delay) 

#> Source: local data frame [131,106 x 6] 

#> Groups: dest [77] 


#> 

#> yeqr month day dest arr_delay prop_delay 
#> <int> <lnt> <int> <chr> <dbl> <dbl> 
#> 1 2013 1 1 IAH 11 1.11e-04 
#> 2 2013 1 1 IAH 20 2.01e-04 
#> 3 2013 1 T MIA 33 2.35e-04 
#> 4 2013 1 1 ORD 12 4.24e-05 
#> 5 2013 1 1 FEL 19 9.38e-05 
#> 6 2013 1 f ORD 8 2.83e-05 
办 > # ... with 1.311e+05 more rows 


分 组 筛选 器 的 作用 相当 于 分 组 新 变量 加 上 未 分 组 筛选 器 。 我 一 般 不 使 用 分 组 筛选 右 ， 除 非 
是 为 了 完成 快速 、 粗 略 的 数据 处 理 ， 否则 很 难 检查 数据 处 理 的 结 果 是 否 正确 。 


在 分 组 新 变量 和 往 选 器 中 最 常 使 用 的 函数 称 为 窗口 函数 (与 用 于 统计 的 摘要 函数 相 
对 )。 你 可 以 在 相应 的 使 用 指南 中 学 习 到 更 多 关于 窗口 函数 的 知识 : vignette("window- 


functions"), 


练习 


(1) 查看 常用 的 新 变量 函数 和 筛选 国 数 的 列表 。 当 它们 与 分 组 操作 结合 使 用 时 ， 功 能 有 哪些 
变化 ? 


(2) 哪 一 架 飞 机 (用 机 尾 编 号 来 识别 ，tailnum) 具有 最 差 的 准点 记录 ? 
(3) 如 果 想 要 尽量 避免 航班 延误 ， 那 么 应 该 在 一 天 中 的 哪个 时 间 搭乘 飞机 ? 
(4) 计算 每 个 目的 地 的 延误 总 时 间 的 分 钟 数 ， 以 及 每 架 航 班 到 每 个 目的 地 的 延误 时 间 比 例 。 


(5) 延误 通常 是 由 临时 原因 造成 的 : 即使 最 初 引起 延误 的 问题 已 经 解决 ， 但 因为 要 让 前 面 的 
航班 先 起 飞 ， 所 以 后 面 的 航班 也 会 延误 。 使 用 1ag() 函数 探究 一 架 航 班 延误 与 前 一 架 航 
班 延误 之 间 的 关系 。 


(6) 查看 每 个 目的 地 。 你 能 否 发 现 有 些 航 班 的 速度 快 得 可 疑 ? (也 就 是 说 ， 这 些 航 班 的 数据 
可 能 是 错误 的 。) 计算 出 到 目的 地 的 最 短 航线 的 飞行 时 间 。 哪 架 航 班 在 空中 的 延误 时 间 
最 长 ? 


(7) 找 出 至 少 有 两 个 航空 公司 的 所 有 目的 地 。 使 用 数据 集中 的 信息 对 航空 公司 进行 排名 。 
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工作 流 : 脚本 


迄今 为 止 ， 我 们 一 直 使 用 RStudio 控制 台 来 运行 代码 。 这 是 一 个 非常 好 的 开始 ， 但 如 果 需 要 
创建 更 复杂 的 ggplot2 图 形 或 者 dplyr 管道 ， 你 很 快 就 会 发 现 控制 台 非 常 不 方便 。 为 了 拓展 工 
作 空 间 ， 我 们 应 该 使 用 RStudio 脚本 编辑 器 。 要 想 打 开 脚本 编辑 器 ， 可 以 点 击 File 菜单 ， 选 
择 New File， 接 着 选择 RScript 也 可 以 使 用 组 合 键 altShifHN。 现 在 你 可 以 看 到 4 + HE, 





o - =+ — + Addins + Ë data-anal lysis ~ 







| mpg-plot.R Environment History -r 
nsave QA- Run > + e = C 日 impor Dataset - g List ~ 
i libra ary(ggplo D fh Global Environment + 


; aa Si Wa, aes(x = displ, y = hwy)) + 
nt(aes(colour = class)) 


Files Plots Packages Help Viewer 
# zoom epn- © y 


Console ads 1d: 

> libra; RNE ia 

3 se J, aes(x TONNIE i d 
+ g9eom_point(aes(col 





如 果 你 很 重视 一 段 代 码 ， 那 么 脚本 编辑 器 就 是 存放 这 段 代 码 的 绝 好 位 置 。 你 可 以 在 控制 台 
中 不 断 调 试 ， 一 旦 代码 正常 运行 并 输出 预期 结果 ， 你 就 可 以 将 其 放 在 脚本 编辑 器 中 。 当 退 
出 RStudio 时 ， 它 会 自动 保存 编辑 器 中 的 内 容 ， 并 在 重新 打开 时 自动 加 载 编辑 器 中 的 内 容 。 
尽管 如 此 ， 我 们 还 是 应 该 定时 保存 脚本 ， 并 做 好 备份 。 
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4.1 运行 代码 

脚本 编辑 器 还 非常 适合 建立 复杂 的 ggplot2 图 形 或 较 长 的 dplyr 操作 序列 。 有 效 使 用 脚本 编 
辑 器 的 关键 是 记 住 最 重要 的 快捷 键 之 一 : Ctrl+Enter。 这 组 快捷 键 会 在 控制 台中 执行 当前 
BJ R 语句 。 例 如 ， 输 入 以 下 代码 后 ， 如 果 光 标 在 量 处 ， 那 么 按 Ctrl+Enter 会 运行 生成 not _ 
cancedlled 的 完整 命令 ， 并 将 光标 移 到 下 一 个 语句 (BDP, not_cancelled %>% 开头 的 语 
句 )。 因 此 ， 重 复 按 Ctrl+Enter 就 可 以 轻松 运行 整个 脚本 : 


library(dplyr) 
library(nycflights13) 








not_cancelled <- flights %>% 
fiLter(!is.na(dep_deLay) 国 ，!is.na(arr_deLay)) 


not_cancelled %>% 
group_by(year, month, day) %>% 
summarize(mean = mean(dep_delay)) 


除了 按照 语句 顺序 运行 ， 还 可 以 一 次 性 运行 整个 脚本 : Ctrl+ShifttS。 定 期 运行 整个 脚本 是 
韭 常 好 的 做 法 ， 可 以 让 你 确认 脚本 中 所 有 重要 的 代码 都 没有 问题 。 

我 们 建议 你 一 直 将 所 需要 R 包 的 语句 放 在 脚本 开头 。 这 样 一 来 ， 如 果 将 代码 分 享 给 别 
人 ， 他 们 就 可 以 很 容易 地 知道 需要 安装 哪些 R 包 。 但 注意 ， 永 远 不 要 在 分 享 的 脚本 中 包括 
install.packages() 函数 或 setwd() 国 数 。 这 种 改变 他 人 计算 机 设置 的 行为 会 引起 众 奴 的 。 
在 后 续 章 市 的 学 习 中 ， 我 们 强烈 建议 你 使 用 脚本 编辑 器 ， 并 练习 使 用 快捷 键 。 随 着 时 间 的 
推移 ， 利 用 这 种 方式 向 控制 台 发 送 代 码 会 让 人 感到 得 心 应 手 ， 如 同行 云 流 水 。 


4.2 RStudio 自 动 诊断 
脚本 编辑 器 还 会 利用 红色 波浪 线 和 边栏 的 红 又 来 高 亮 显示 语法 错误 : 
3 
O4 xy<-10 
5 
将 鼠标 移 到 红 又 上 就 可 以 看 到 错误 提示 : 


3 
O4 xy < 16 


























unexpected token 'y' 
unexpected token '<-' 








RStudio 还 能 找 出 潜在 的 代码 问题 : 


Ai? š s= NA 


i"a 'is.na' to check whether expression evaluates to 
2 





NA 
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练习 
(1) 访问 RStudio 技巧 的 twitter 账号 @rstudiotips (https:/twittercomstudiotips) ， 选 择 一 个 有 趣 
的 小 技巧 ， 并 实践 一 下 | 


(2) RStudio 自动 诊断 程序 还 会 通报 哪些 其 他 常见 错误 ?阅读 https://support.rstudio.com/hc/ 
en-us/articles/205753617-Code-Diagnostics 来 找 出 答案 。 








第 5 章 


探索 性 数据 分 析 





5 向 外 


本 章 将 展示 如 何 使 用 可 视 化 方法 和 数据 转换 来 系统 化 地 探索 数据 ， 统 计 学 家 将 这 项 任务 称 
为 探索 性 数据 分 析 (exploratory data analysis, EDA), EDA 是 一 个 可 迭代 的 循环 过 程 ， 具 
有 以 下 作用 。 


(1) 对 数据 提出 问题 。 
(2) 对 数据 进行 可 视 化 、 转 换 和 建 模 ， 进 而 找 出 问题 的 答案 。 
(3) 使 用 上 一 个 步骤 的 结果 来 精炼 问题 ， 并 提出 新 问题 。 


EDA 并 不 是 具有 严格 规则 的 正式 过 程 ， 它 首先 是 一 种 思维 状态 。 在 EDA 的 初始 阶段 ， 你 应 
该 天 马 行 空地 发 挥 想 象 力 ， 并 考察 和 试验 能 够 想到 的 所 有 方法 。 有 些 想 法 是 行 得 通 的 ， 有 些 
想法 则 会 无 疾 而 终 。 当 探索 更 进一步 时 ， 你 就 可 以 锁定 容易 产生 成 果 的 几 个 领域 ， 将 最 终 想 
法 整理 成 文 ， 并 与 他 人 进行 沟通 。 

EDA 是 所 有 数据 分 析 过 程 中 的 重要 环 季 ， 因 为 总 是 需要 考察 一 下 数据 质量 ， 即 使 你 可 以 不 
费 吹 灰 之 力 就 找 出 问题 。 数 据 清 洗 只 是 EDA 的 一 项 具体 应 用 ， 此 时 你 提出 的 问题 是 ， 数 
据 是 否 符合 预期 。 要 想 进 行 数据 清洗 ， 需 要 使 用 所 有 的 EDA 工具 : 可 视 化 、 数 据 转换 和 
建 模 。 


准备 工作 


本 章 会 将 你 学 到 的 关于 dplyr 和 ggplot 的 知识 综合 起 来 ， 以 交互 的 方式 提出 问题 、 用 数据 
解答 问题 、 再 提出 新 的 问题 。 


library(tidyverse) 
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5.2 问题 


没有 一 成 不 变 的 统计 问题 ， 统 计 上 的 一 成 不 变 都 是 有 问题 的 





Sir David Cox 
正确 问题 的 近似 答案 通常 是 模糊 的 ， 但 它 远 远 胜 过 错误 问题 的 确切 答案 ， 尽 管 后 
者 总 是 很 精确 。 

一 一 John Tukey 


EDA 期 间 的 目标 是 获取 对 数据 的 理解 。 进 行 EDA 的 最 简单 的 方式 就 是 将 问题 作为 指导 

查 研究 的 工具 。 提 出 问题 后 ， 这 个 问题 就 使 得 你 将 注意 力 集中 在 数据 集中 的 特定 部 分 ， — 
帮助 你 进行 有 关 图 形 、 模 型 和 数据 转换 的 决定 。 

EDA 本 质 上 是 一 个 创造 性 过 程 。 和 多 数 创造 性 过 程 一 样 ， 问 题 的 质量 关键 在 于 问题 的 数 
量 。 分 析 过 程 的 开始 阶段 很 难 提出 有 启发 性 的 问题 ， 因 为 你 并 不 知道 数据 集中 包含 了 哪些 
真知 灼 见 。 另 一 方面 ， 你 提出 的 每 个 新 问题 都 可 以 揭示 数据 中 的 新 内 容 ， 并 增加 发 现 知识 
的 机 会 。 如 果 在 知识 发 现 的 基础 上 不 断 使 用 新 问题 来 补充 每 个 老 问 题 ， 那 么 你 就 可 以 快速 
地 获取 数据 中 最 令 人 感 兴趣 的 部 分 ， 并 总 结 出 一 组 发 人 深 省 的 问题 。 


对 于 应 该 提出 什么 样 的 问题 来 指导 我 们 的 研究 ， 现 在 还 没有 确定 的 规则 。 但 有 两 类 问题 总 

是 有 助 于 我 们 在 数据 中 发 现 知识 。 我 们 可 以 粗略 地 将 这 两 类 问题 表述 如 下 。 

(1) 变量 本 身 会 发 生 何 种 变动 ? 

(2) 不 同 变 量 之 间 会 发 生 何 种 相关 变动 ? 

本 章 剩余 部 分 会 继续 讨论 这 两 个 问题 。 我 们 将 解释 什么 是 变动 ， 什 么 是 相关 变动 ， 并 介绍 

回答 这 两 个 问题 的 几 种 方法 。 为 了 简化 讨论 ， 我 们 先 定 义 儿 个 术语 。 

° 变量 : 一 种 可 测量 的 数量 、 质 量 或 属性 。 

。 值 : 变量 在 测量 时 的 状态 。 变 量 值 在 每 次 测量 之 间 可 以 发 生 改变 。 

° 观测 : 或 称 个 案 ， 指 在 相同 条 件 下 进行 的 一 组 测量 (通常 ， 一 个 观测 中 的 所 有 测量 是 在 
同一 时 间 对 同一 对 象 进 行 的 )。 一 个 观测 会 包含 多 个 值 ， 每 个 值 关 联 到 不 同 的 变量 。 有 
时 我 们 会 将 观测 称 为 数据 点 。 
表格 数据 : dy ddr T 变量 和 一 个 观测 。 如 果 每 个 值 都 有 自 
己 所 属 的 “单元 "， 每 个 变量 都 有 自己 所 属 的 列 ， 每 个 观测 都 有 自己 所 属 的 行 ， 那 么 表 
格 数据 就 是 整洁 的 。 

迄今 为 止 ， 我们 见 过 的 数据 都 是 整洁 的 。 但 在 实际 生活 中 ， 大 多 数 的 数据 则 是 不 整洁 的 。 


5.3 变动 


变动 是 每 次 测量 时 数据 值 的 变化 趋势 。 实 际 生活 中 很 容易 看 到 变动 。 — 
量 进行 两 次 测量 ， 那 么 会 得 到 两 个 不 同 的 结果 ， 即 使 测量 的 是 一 个 常数 (如 光速 )， 
也 是 如 此 。 每 次 测量 — j j Oo R 
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项 目 (如 不 同人 的 眼睛 颜色 ) 或 进行 多 次 测量 (如 电池 在 不 同时 刻 的 电量 )， 分 类 变量 也 
会 发 生变 化 。 所 有 变量 都 有 自己 的 变动 模式 ， 可 以 揭示 出 一 些 有 趣 的 信息 。 理 解 这 种 模式 
的 最 好 方法 就 是 对 变量 值 的 分 布 进行 可 视 化 表示 。 


5.3.1 对 分 布 进行 可 视 化 表示 

对 变量 分 布 进行 可 视 化 的 方法 取决 于 变量 是 分 类 变量 还 是 连续 变量 。 如 果 仅 在 较 小 的 集合 
内 取 值 ， 那 么 这 个 变量 就 是 分 类 变量 。 分 类 变量 在 R 中 通常 保存 为 因子 或 字符 向 量 。 要 想 
检查 分 类 变量 的 分 布 ， 可 以 使 用 条 形 图 : 


ggplot(data = diamonds) + 
geom_bar(mapping = aes(x = cut)) 
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cut 
条 形 的 高 度 表 示 每 个 x 值 中 观测 的 数量 ， 你 可 以 使 用 dpLyr: :count() 手动 计算 出 这 些 值 : 


diamonds %>% 


count(cut) 
#> # A tibble:s 5 x2 
#> cut n 
#> <ord> <int> 
#> 1 Fair 1610 
#> 2 Good 4906 


#> 3 Very Good 12082 
#> 4 Premium 13791 
#> 5 Ideal 21551 


如 有 果 可 以 在 无 限 大 的 有 序 集合 中 任意 取 值 ， 那 么 这 个 变量 就 是 连续 变量 。 数 值 型 和 日 期 时 
间 型 变量 就 是 连续 变量 的 两 个 例子 。 要 想 检查 连续 变量 的 分 布 ， 可 以 使 用 直方 图 : 


ggpLot(data = diamonds) + 
geom_histogram(mapping = aes(x = carat), binwidth = 0.5) 
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你 可 以 通过 dplyr::count() 和 ggplot2::cut_width() 国 数 的 组 合 来 手动 计算 结果 : 


diamonds %>% 
count(cut_width(carat, 0.5)) 
#> # A tibble: 11 x 2 


#> `cut_width(carat, 0.5)` n 
办 > <fetr> <int> 
#> 1 [-0.25,0.25] 785 
#> 2 (0.25,0.75] 29498 
#> 3 (0.75,1.25] 15977 
#> 4 (1.25; 757. 5313 
#> 5 (1.75,2.25] 2002 
#> 6 (2;25;2.757 322 
#> # ... with 5 more rows 


直方 图 对 x 轴 进行 等 宽 分 箱 ， 然 后 使 用 条 形 的 高 度 来 表示 落 入 每 个 分 箱 的 观测 的 数量 。 在 
上 图 中 ， 最 高 的 条 形 表示 几乎 有 30 000 个 观测 的 carat 值 在 0.25 和 0.75 之 间 ， 这 两 个 值 





分 别 是 条 形 的 左 侧 值 和 右 侧 值 。 
你 可 以 使 用 binwidth 参数 来 设 定 直方 








图 中 的 间隔 的 宽度 ， 该 参数 是 用 x 轴 变 量 的 单位 来 度 


量 的 。 在 使 用 直方 图 时 ， 你 应 该 试验 一 下 不 同 的 分 箱 宽度 ， 因 为 不 同 的 分 箱 宽度 可 以 揭示 
不 同 的 模式 。 例 如 ， 如 果 只 考虑 重量 小 于 3 克拉 的 钻石 ， 并 选择 一 个 更 小 的 分 箱 宽 度 ， 那 





么 直方 图 如 下 所 示 : 


smaller <- diamonds %>% 
filter(carat < 3) 


ggpLot(data = smaller, mapping = aes(x = carat)) + 


geom_histogram(binwidth = 0.1) 
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carat 
如 果 想 要 在 同一 张 图 上 县 加 多 个 直方 图 ， 那 么 我 们 建议 你 使 用 geom_freqploy() 函数 来 代替 
geom_histogram() 国 数 。geom_freqptoy() 可 以 执行 和 geom_histogram() 同样 的 计算 过 程 ， 
但 前 者 不 使 用 条 形 来 显示 计数 ， 而 是 使 用 折线 。 又 加 的 折线 远 比 琶 加 的 条 形 更 容易 理解 : 


ggplot(data = smaller, mapping = aes(x = carat, color = cut)) + 
geom_freqpoly(binwidth = 0.1) 
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这 种 类 型 的 图 存在 儿 个 问题 ，5.5.1 市 会 对 其 进行 深入 讨论 。 


5.3.2 ”典型 值 


条 形 图 和 直方 图 都 用 比较 高 的 条 形 表 示 变 量 中 的 常见 值 ， 而 用 比较 矮 的 条 形 表示 变量 中 不 
常见 的 值 。 没 有 条 形 的 位 置 表示 数据 中 没有 这 样 的 值 。 为 了 将 这 些 信息 转换 为 有 用 的 问 
题 ， 我 们 看 看 是 否 具 有 意料 之 外 的 情况 。 

哪些 值 是 最 常见 的 ? 为 什么 ? 

哪些 值 是 非常 罕见 的 ?为 什么 ?这 和 你 的 预期 相符 吗 ? 

你 能 发 现任 何 异 乎 寻常 的 模式 吗 ? 如 何 解释 ? 
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作为 示例 ， 可 以 从 以 下 直方 图 发 现 几 个 有 趣 的 问题 。 

。 为 什么 重量 为 整数 克拉 和 常见 分 数 克拉 的 钻石 更 多 ? 

。 为 什么 位 于 每 个 峰值 稍 偏 右 的 钻石 比 稍 偏 左 的 钻石 更 多 ? 
。 为 什么 没有 重量 超过 3 克拉 的 钻石 ? 


ggpLot(data = smaller, mapping = aes(x = carat)) + 
geom_histogram(binwidth = 0.01) 
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ARH, ERRERIK ETH. 2) TERTA, REBLA Pei. 
° ENP Jae An AAR? 

。 AARZELEN? 

。 如 何 解 释 或 描述 各 个 簇 ? 

。 为 什么 有 些 禾 的 外 观 可 能 具有 误导 作用 ? 

以 下 的 直方 图 显示 了 美国 黄石 国家 公园 中 的 老 忠 实 喷泉 的 272 次 喷发 的 时 长 (单位 为 分 
钟 )。 喷 发 时 间 似 乎 聚集 成 了 两 组 : 短 喷发 (2 分钟 左右 ) 和 长 喷发 (4~5 分 钟 )， 这 两 组 
间 几 乎 没有 其 他 喷发 时 间 


ggpLot(data = faithful, mapping = aes(x = eruptions)) + 
geom_histogram(binwidth = 0.25) 
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以 上 很 多 问题 都 会 促使 你 探索 变量 间 的 关系 ， 例 如 ， 查 看 变量 的 值 是 否 可 以 解释 另 一 个 变 
量 的 行为 。 我 们 稍 后 就 会 讨论 这 个 问题 。 


5.3.3 ”异常 值 
异常 值 是 与 众 不 同 的 观测 或 者 是 模式 之 外 的 数据 点 。 有 时 异常 值 是 由 于 数据 录入 错误 而 产 
生 的 ， 有 时 异常 值 则 能 开辟 出 一 块 重要 的 新 科学 领域 。 如 果 数 据 量 比较 大 ， 有 了 时 很 难 在 直 
方 图 上 发 现 异常 值 。 例 如 ， 查 看 钻石 数据 集中 y 轴 变 量 的 分 布 ， 唯 一 能 表示 存在 异常 值 的 
证 据 是 ，y 轴 的 取 值 范围 出 奇 得 宽 : 
ggplot(diamonds) + 
geom_histogram(mapping = aes(x = y), binwidth = 0.5) 
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y 
正常 值 分 箱 中 的 观测 太 多 了 ， 以 致 于 包括 异常 值 的 分 箱 高 度 太 低 ， 因 此 我 们 根本 看 不 见 
(如 果 仔 细 观 察 x 轴 0 刻度 附近 ， 没 准 你 能 发 现 点 什么 )。 为 了 更 容易 发 现 异 常 值 ， 我 们 可 
以 使 用 coord_cartesian() 国 数 将 y 轴 靠 近 0 的 部 分 放大 : 
ggplot(diamonds) + 


geom_histogram(mapping = aes(x = y), binwidth = 0.5) + 
coord_cartesian(ylim = c(0, 50)) 
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(coord_cartesian() 函数 中 有 一 个 用 于 放大 x 轴 的 xLim() 参数 。ggplot2 中 也 有 功能 稍 有 区 
别 的 xtim() 和 ylim() 函数 : 它们 会 忽略 溢出 坐标 轴 范 围 的 那些 数据 。) 

这 样 一 来 ,我们 就 可 以 看 出 有 3 个 异常 值 ， 分别 位 于 0、30 左右 和 60 左右 。 我 们 使 用 
dplyr 将 它们 找 出 来 : 


unusual <- diamonds %>% 
filter(y < 3 | y > 20) %>% 





arrange(y) 
unusual 
#> # À tibbles 9 x 10 
#> carat cut color clarity depth table price x 
办 > <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> 


#> 1 1.00 Very Good H VS2 63.3 53 5139 0.00 
#2 34,314 Fair G VS1 57:5 67 6381 0.00 
2a Td6 Ideal G VS2 62.2 54 12800 0.00 
#> 4 4.20 Premium D VVS1 62.1 59 15686 0.00 
#> 5 2.25 Premium H SI2 62.8 59 18034 0.00 
#> 6 0.71 Good Ẹ SI2 64.1 60 2130 0.00 
#3 7 OnI Good F SI2 64.1 60 2130 0.00 
#> 8 0,53 Ideal E VST 61:8 55: 2075 5.15 


H> 9-200 Premium H SI2 58.9 57 12230 8:09 
#> # ... with 2 more variables: 
#> # y <dbl>, z <dbl> 


y 变量 测量 钻石 的 三 个 维度 之 一 ， 单 位 为 毫米 。 我 们 知道 钻石 的 宽度 不 可 能 是 0 毫米 ， 因 
此 这 些 值 表 定 是 错误 的 。 我 们 也 完全 可 以 认为 32 毫米 和 59 之 米 同 样 是 令 人 难以 置信 的 ， 
这 样 的 钻石 长 度 超过 1 英寸 (1 英寸 =2.54 厘米 )， 简 直 就 是 无 价 之 宝 ! 

使 用 带 有 蜡 常 值 和 不 带 异 常 值 的 数据 分 别 进 行 分 析 ， 是 一 种 良好 的 做 法 。 如 果 两 次 分 析 的 
结果 差别 不 大 ， 而 你 又 无 法 说 明 为 什么 会 有 异常 值 ， 那 么 完全 可 以 用 缺失 值 替 代 异 常 值 ， 
然后 继续 进行 分 析 。 但 如 果 两 次 分 析 的 结果 有 显著 差别 ， 那 么 你 就 不 能 在 没有 正当 理由 的 
情况 下 丢弃 它们 。 你 需要 乔 清 出 现 异 常 值 的 原因 〈 如 数据 输入 错误 ) ， 并 在 文章 中 说 明 丢 弃 
它们 的 理由 。 


5.3.4 练习 

(1) 研 究 x、y 和 z 变量 在 diamonds 数据 集中 的 分 布 。 你 能 发 现 什 么 ?” 思考 一 下 ， 对 于 一 条 
钻石 数据 ， 如 何 确 定 表示 长 、 宽 和 高 的 变量 ? 

(2) 研 究 price 的 分 布 ， 你 能 发 现 不 寻常 或 邻 人 惊奇 的 事情 吗 ? (提示 : 仔细 考虑 一 下 
binwidth 参数 ， 并 确定 试验 了 足够 多 的 取 值 。) 

(3) 0.99 克拉 的 钻石 有 和 多少 ? 1 克拉 的 钻石 有 多 少 ? 造成 这 种 区 别 的 原因 是 什么 ? 

(4) 比较 并 对 比 coord_cartesina() 和 xLim()/yLim() 在 放大 直方 图 时 的 功能 。 如 果 不 设 置 
binwidth 参数 ， 会 发 生 什么 情况 ?如 果 将 直方 图 放大 到 只 显示 一 半 的 条 形 ， 那 么 又 会 发 
生 什么 情况 ? 

































































5.4 缺失 值 


如 果 在 数据 集中 发 现 异常 值 ， 但 只 想 继续 进行 其 余 的 分 析 工 作 ， 那 么 有 2 种 选择 。 
将 带 有 可 疑 值 的 行 全 部 丢弃 : 


diamonds2 <- diamonds %>% 
filter(between(y, 3, 20)) 


我 们 不 建议 使 用 这 种 方式 ， 因 为 一 个 无 效 测 量 不 代表 所 有 测量 都 是 无 效 的。 此 外 ， 如 果 数 
据 质 量 不 高 ， 若 对 每 个 变量 都 采取 这 种 做 法 ， 那 么 你 最 后 可 能 会 发 现 数据 已 经 所 剩 无 几 ! 
相反 ， 我 们 建议 使 用 缺失 值 来 代替 异常 值 。 最 简单 的 做 法 就 是 使 用 mutate() 函数 创建 
一 个 新 变量 来 代替 原来 的 变量 。 你 可 以 使 用 ifelse() 国 数 将 异常 值 奉 换 为 NA: 
diamonds2 <- diamonds %>% 
mutate(y = ifelse(y < 3 | y > 20, NA, y)) 
ifelse() 函数 有 3 个 参数 。 第 一 个 参数 test 应 该 是 一 个 逻辑 向 量 ， 如 果 test X TRUE, P 
数 结果 就 是 第 二 个 参数 yes 的 值 ， 如 果 test 为 FALSE， 国 数 结果 就 是 第 三 个 参数 no 的 值 。 


和 RR 一 样 ，ggplot2 也 遵循 不 能 无 视 缺 失 值 的 原则 。 因 为 无 法 明确 地 绘制 出 缺失 值 ， 所 以 
ggplot2 在 绘图 时 会 忽略 缺失 值 ， 但 会 提出 警告 以 通知 缺失 值 被 丢弃 了 : 


ggplot(data = diamonds2, mapping = aes(x = x, y = y)) + 
geom_point() 

#> Warning: Removed 9 rows containing missing values 

#> (geom_ point). 






































































































































要 想 不 显 示 这 条 和 警告， 可 以 设置 na.rm = TRUE: 
ggplot(data = diamonds2, mapping = aes(x = x, y = y)) + 
geom_point(na.rm = TRUE) 
有 时 你 会 想 弄 清楚 造成 有 缺失 值 的 观测 和 没有 缺失 值 的 观测 间 的 区 别 的 原因 。 例 如 ， 在 
nycflights13::flights 中 ，dep_time 变量 中 的 缺失 值 表示 航班 取消 了 。 因 此 ， 你 应 该 比较 
一 下 已 取消 航班 和 未 取消 航班 的 计划 出 发 时 间 。 可 以 使 用 is.na() 函数 创建 一 个 新 变量 来 


完成 这 个 操作 : 
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nycflights13::flights %>% 
mutate( 
cancelled = is.na(dep_time), 
sched_hour = sched_dep_time %/% 100, 
sched_min = sched_dep_time %% 100, 
sched_dep_time = sched_hour + sched_min / 60 
) %>% 
ggplot(mapping = aes(sched_dep_time)) + 
geom_freqpoly( 
mapping = aes(color = cancelled), 
binwidth = 1⁄4 
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但 是 这 张 图 的 效果 并 不 怎么 好 ， 因 为 未 取消 航班 的 数量 远 远 多 于 已 取消 航班 的 数量 。 我 们 
会 在 下 一 市 中 介绍 改善 此 类 比较 的 一 些 技巧 。 


练习 


(1) 直方 图 如 何 处 理 缺 失 值 ? 条 形 图 如 何 处 理 缺 失 值 ? 为 什么 会 有 这 种 区 别 ? 
(2)na.rm = TRUE 在 mean() 和 sum() 国 数 中 的 作用 是 什么 ? 


5.5 相关 变动 


如 果 变 动 描述 的 是 一 个 变量 内 部 的 行为 ， 那 么 相关 变动 描述 的 就 是 多 个 变量 之 间 的 行为 。 
相关 变动 是 两 个 或 多 个 变量 以 相关 的 方式 共同 变化 所 表现 出 的 趋势 。 查 看 相关 变动 的 最 好 
方式 是 将 两 个 或 多 个 变量 间 的 关系 以 可 视 化 的 方式 表现 出 来 。 如 何 进行 这 种 可 视 化 表示 同 
样 取决 于 相关 变量 的 类 型 。 


5.5.1 分 类 变量 与 连续 变量 


我 们 经 常 需要 探索 连续 变量 的 分 布 ， 这 种 分 布 按照 一 个 分 类 变量 的 值 可 以 分 为 几 个 组 ， 就 
像 前 面 的 频率 多 边 形 图 一 样 。geom_freqpoly() 的 默认 外 观 不 太 适 合 这 种 比较 ， 因 为 高 度 是 
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由 计数 给 出 的 。 这 就 意味 着 ， 如 果 一 组 观测 的 数量 明显 少 于 其 他 组 的 话 ， 就 很 难看 出 形状 
上 的 差别 。 举 个 例子 ， 我 们 探索 一 下 钻石 价格 是 如 何 随 着 质量 而 变化 的 : 


ggpLot(data = diamonds，mapping = aes(x = price)) + 
geom_freqpoly(mapping = aes(color = cut), binwidth = 500) 
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很 难看 出 分 布 上 的 差别 ， 因 为 总 体 看 来 各 组 数量 的 差别 大 大 了 : 
ggplot(diamonds) + 
geom_bar(mapping = aes(x = cut)) 
20000 = 
15000 = 
€ 
=] 
° 
© 10000- 
N" m Ë í 
Fair Gead Very vod 局 smiunm ied 


cut 


为 了 让 比较 变 得 更 容易 ， 需 要 改变 轴 的 显示 内 容 ， 不 再 显示 计数 ， 而 是 显示 密度 。 密 度 
是 对 计数 的 标准 化 ， 这 样 每 个 频率 多 边 形 下 边 的 面积 都 是 1: 





ggplot( 
data = diamonds, 
mapping = aes(x = price, y = ..density..) 
) + 


geom_freqpoly(mapping = aes(color = cut), binwidth = 500) 
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这 张 图 的 部 分 内 容 非 常 令 人 惊讶 ， 其 显示 出 一 般 钻石 (质量 最 差 ) 的 平均 价格 是 最 高 的 ! 
但 这 可 能 是 因为 频率 多 边 形 图 很 难 解 释 ， 所 以 这 张 图 还 有 很 多 可 以 改进 的 地 方 。 
按 分 类 变量 的 分 组 显示 连续 变量 分 布 的 另 一 种 方式 是 使 用 箱 线 图 。 箱 线 图 是 对 变量 值 分 布 
的 一 种 简单 可 视 化 表示 ， 这 种 图 在 统计 学 家 中 非常 流行 。 每 张 箱 线 图 都 包括 以 下 内 容 。 
一 个 长 方形 箱子 ， 下 面 的 边 表示 分 布 的 第 25 个 百 分 位 数 ， 上 面 的 边 表示 分 布 的 第 75 个 
百 分 位 数 ， 上 下 两 边 的 距离 称 为 四 分 位 距 。 箱 子 的 中 部 有 一 条 横 线 , 表示 分 布 的 中 位 数 ， 
也 就 是 分 布 的 第 50 个 百 分 位 数 。 这 三 条 线 可 以 表示 分 布 的 分 散 情况 ， 还 可 以 帮助 我 们 
明确 数据 是 关于 中 位 数 对 称 的 ， 还 是 偏向 某 一 侧 。 
圆 点 表示 落 在 箱子 上 下 两 边 1.5 倍 四 分 位 距 外 的 观测 ， 这 些 离 群 点 就 是 异常 值 ， 因 此 需 
要 单独 绘 出 。 
从 箱子 上 下 两 边 延 伸 出 的 直线 (或 称 为 须 ) 可 以 到 达 分 布 中 最 远 的 非 离 群 点 处 。 


分 布 中 实 分 布 的 直方 图 表 分 布 的 箱 线 
际 的 值 示 (旋转 后 的 ) 表示 


| 离 群 点 —— 
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使 用 geom_boxplot() 函数 查看 按 切 割 质 量 分 类 的 价格 分 布 : 


ggplot(data = diamonds, mapping = aes(x = cut, y = price)) + 
geom_boxplot() 
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虽然 看 不 出 太 多 关于 分 布 的 信息 ， 但 箱 线 图 更 加 紧凑 ， 因 此 可 以 更 容易 地 比较 多 个 类 别 
(也 更 适合 使 用 一 张 图 来 表示 )。 与 前 面 的 图 形 一 样 ， 我 们 可 以 从 箱 线 图 中 发 现 违 反 直 觉 的 
现象 : 质量 更 好 的 钻石 的 平均 价格 更 低 ! 你 将 在 练习 中 接受 这 一 挑战 ， 说 明 为 什么 会 
这 样 。 

cut 是 一 个 有 序 因子 :“ 一 般 ” 不 如 “ 较 好 ”“ 较 好 ”不 如 “很 好 ”， 以 此 类 推 。 因 为 很 多 分 
类 变量 并 没有 这 种 内 在 的 顺序 ， 所 以 有 时 需要 对 其 重新 排序 来 绘制 信息 更 丰富 的 图 形 。 重 新 
排序 的 其 中 一 种 方法 是 使 用 reorder() 国 数 。 

例如 ， 我 们 看 一 下 mpg 数据 集中 的 class 变量 。 你 可 能 很 想 知道 公路 里 程 因 汽 车 类 别 的 不 
同 会 有 怎样 的 变化 : 


ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
geom_boxplot() 
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为 了 更 容易 发 现 趋势 ， 可 以 基于 hwy 值 的 中 位 数 对 class 进行 重新 排序 : 


ggplot(data = mpg) + 
geom_boxplot( 
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mapping = aes( 
x = reorder(class, hwy, FUN = median)， 


y = hwy 
) 
) 
° ° 
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== e 
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reorder(class, hwy, FUN = median) 


如 果 变 量 名 很 长 ， 那 么 将 图 形 旋 转 90 度 效果 会 更 好 一 些 。 你 可 以 通过 coord_flip() 函数 
完成 这 一 操作 : 


ggplot(data = mpg) + 
geom_boxplot( 
mapping = aes( 
x = reorder(class, hwy, FUN = median), 
y = hwy 
) 
) + 
coord_flip() 
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练习 

(1) 前 面 对 比 了 已 取消 航班 和 未 取消 航班 的 出 发 时 间 ， 使 用 学 习 到 的 知识 对 这 个 对 比 的 可 视 
化 结果 进行 改善 。 

(2) 在 钻石 数据 集中 ， 哪 个 变量 对 于 预测 钻石 的 价格 最 重要 ?这 个 变量 与 切 制 质量 的 关系 是 
怎样 的 ? 为 什么 这 两 个 变量 的 关系 组 合 会 导致 质量 更 差 的 钻石 价格 更 高 呢 ? 

(3) 安装 ggstance 包 ， 并 创建 一 个 横向 箱 线 图 。 这 种 方法 与 使 用 coord_flip() 函数 有 何 区 别 ? 

(4) 箱 线 图 存在 的 问题 是 ， 在 小 数据 集 时 代 开 发 而 成 ， 对 于 现在 的 大 数据 集会 显示 出 数量 极 
其 庞大 的 异常 值 。 解 决 这 个 问题 的 一 种 方法 是 使 用 字母 价值 图 。 安 装 lvplot 包 ， 并 尝试 
使 用 geom_Lv() 函数 来 显示 价格 基于 切割 质量 的 分 布 。 你 能 发 现 什么 问题 ? 如 何 解释 这 
种 图 形 ? 

(5) 比较 并 对 比 geom_violin()、 分 面 的 geom_histogram() 和 着 色 的 geom_freqploy()。 每 种 
方法 的 优 缺 点 是 什么 ? 

(6) 对 于 小 数据 集 ， 如 果 要 观察 连续 变量 和 分 类 变量 间 的 关系 ， 有 时 使 用 geom_jitter() 函数 
是 特别 有 用 的 。ggbeeswarm 包 提 供 了 和 geom_jitter() 相似 的 一 些 方法 。 列 出 这 些 方法 
并 简单 描述 每 种 方法 的 作用 。 


5.5.2 ”两 个 分 类 变量 
要 想 对 两 个 分 类 变量 间 的 相关 变动 进行 可 视 化 表示 ， 需 要 计算 出 每 个 变量 组 合 中 的 观测 数 
量 。 完 成 这 个 任务 的 其 中 一 种 方法 是 使 用 内 置 的 geom_count() 函数 : 


ggplot(data = diamonds) + 
geom count(mapping = aes(x = cut, y = color)) 
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图 中 每 个 圆 点 的 大 小 表示 每 个 变量 组 合 中 的 观测 数量 。 相 关 变 动 就 表示 为 特定 x 轴 变 量 值 








与 特定 y 轴 变 量 值 之 间 的 强 相 关 关 系 。 
计算 变量 组 合 中 的 观测 数量 的 另 一 种 方法 是 使 用 dplyr: 
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diamonds %>% 

count(color, cut) 
#> Source: local data frame [35 x 3] 
#> Groups: color [?] 


#> 

#> color cut n 
#> <ord> <ord> <int> 
#> 1 D Fair 163 
#> 2 D Good 662 
#> 3 D Very Good 1513 
#> 4 D Premium 1603 
Ws 5. D Ideal 2834 
#> 6 Ë Fair 224 
#> # ... with 29 more rows 








接着 使 用 geom_tile() 函数 和 填充 图 形 属 性 进行 可 视 化 表示 : 


diamonds %>% 
count(color, cut) %>% 
ggplot(mapping = aes(x = color, y = cut)) + 
geom_tile(mapping = aes(fill = n)) 
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如 果 分 类 变量 是 无 序 的 ， 那 么 可 以 使 用 seriation 包 对 行 和 列 同时 进行 重新 排序 ， 以 便 更 清 
楚 地 表示 出 有 趣 的 模式 。 对 于 更 大 的 图 形 ， 你 可 以 使 用 d3heatmap 或 heatmaply 包 ， 这 两 
个 包 都 可 以 生成 有 交互 功能 的 图 形 。 


练习 


(1) 如 何 调整 count 数据 ， 使 其 能 更 清楚 地 表示 出 切割 质量 在 颜色 间 的 分 布 ， 或 者 颜色 在 切 
割 质 量 间 的 分 布 ? 


(2) 使 用 geom_tite() 函数 结合 dplyr 来 探索 平均 航班 延误 数量 是 如 何 随 着 目的 地 和 月 份 的 
变化 而 变化 的 。 为 什么 这 张 图 难以 阅读 ? 如 何 改进 ? 


(3) 为 什么 在 以 上 示例 中 使 用 aes(x = color, y = cut) 要 比 aes(x = cut, y = color) 更 好 ? 
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5.5.3 ”两 个 连续 变量 

对 于 两 个 连续 变量 间 的 相关 变动 的 可 视 化 表示 ， 我 们 已 经 介绍 了 一 种 非常 好 的 方法 : 使 用 
geom_point() 画 出 散 点 图 。 你 可 以 将 相关 变动 看 作 点 的 模式 。 例 如 ， 你 可 以 看 到 钻石 的 克 
拉 数 和 价值 之 间 存 在 一 种 指数 关系 : 


ggplot(data = diamonds) + 
geom point(mapping = aes(x = carat, y = price)) 
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. 


` 0 sph v ...... œ 





carat 
随 着 数据 集 规模 的 不 断 增 加 ， 散 点 图 的 用 处 越 来 越 小 ， 因 为 数据 点 开始 出 现 过 绘制 ， 并 堆 
积 在 一 片 黑色 区 域 中 〈 如 上 面 的 散 点 图 所 示 )。 我 们 已 经 介绍 了 解决 这 个 问题 的 一 种 方法 ， 
即使 用 alpha 图 形 属 性 添加 透明 度 : 
ggplot(data = diamonds) + 
geom_point( 
mapping = aes(x = carat, y = price), 
alpha = 1 / 100 
) 









































price 





carat 
但 是 很 难 对 特别 大 的 数据 集 使 用 透明 度 。 另 一 种 解决 方法 是 使 用 分 箱 。 我 们 之 前 使 用 了 
geom_histogram() 和 geom_freqpoly() 国 数 在 一 个 维度 上 进行 分 箱 ， 现 在 学 习 如 何 使 用 
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geom_bin2d() 和 geom_hex() 函数 在 两 个 维度 上 进行 分 箱 。 


geom_bin2d() 和 geom_hex() 函数 将 坐标 平面 分 为 二 维 分 箱 ， 并 使 用 一 种 填充 闫 色 表 示 落 入 
每 个 分 箱 的 数据 点 。geom_bin2d() 创建 长 方形 分 箱 。geom_hex() 创建 六 边 形 分 箱 。 要 想 使 
用 geom_hex()， 需 要 安装 hexbin 包 : 


ggplot(data = smaller) + 
geom_ bin2d(mapping = aes(x = carat, y = price)) 


# install.packages("hexbin") 
ggplot(data = smaller) + 
geom hex(mapping = aes(x = carat, y = price)) 
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另 一 种 方式 是 对 一 个 连续 变量 进行 分 箱 ， 因 此 这 个 连续 变量 的 作用 就 相当 于 分 类 变量 。 接 
下 来 就 可 以 使 用 前 面 学 过 的 对 分 类 变量 和 连续 变量 的 组 合 进行 可 视 化 的 技术 了 。 例 如 ， 你 
可 以 对 carat 进行 分 箱 ， 然 后 为 每 个 组 生成 一 个 箱 线 图 : 


ggplot(data = smaller, mapping = aes(x = carat, y = price)) + 
geom_boxplot(mapping = aes(group = cut width(carat, 0.1))) 
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以 上 示例 使 用 了 cut_width(x, width) 函数 将 x 变量 分 成 宽度 为 width 的 分 箱 。 默 认 情 况 
下 ， 不 管 其 中 有 多 少 个 观测 ， 箱 线 图 看 上 去 都 差不多 〈 除 了 离 群 点 的 数量 不 同 ) ， 因 此 很 
难 分 辨 出 每 个 箱 线 图 是 对 不 同 数量 的 观测 进行 摘要 统计 的 。 如 果 想 要 体现 这 种 信息 ， 可 以 
使 用 参数 varwidth = TRUE 让 箱 线 图 的 宽度 与 观测 数量 成 正比 。 


另 一 种 方法 是 近似 地 显示 每 个 分 箱 中 的 数据 点 的 数量 ， 此 时 可 以 使 用 cut_number() 国 数 : 


ggpLot(data = smaller, mapping = aes(x = carat, y = price)) + 
geom_boxplot(mapping = aes(group = cut_number(carat, 20))) 
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练习 


(1) 除 了 使 用 箱 线 图 对 条 件 分 布 进行 摘 要 统计 ， 你 还 可 以 使 用 频率 多 边 形 图 。 使 用 cut_ 
width() 函数 或 cut_number() 国 数 时 需要 考虑 什么 问题 ? 这 对 carat 和 price 的 二 维 分 
布 的 可 视 化 表示 有 什么 影响 ? 

(2) 按照 price 分 类 对 carat 的 分 布 进行 可 视 化 表示 。 

(3) 比较 特别 大 的 钻石 和 比较 小 的 铬 石 的 价格 分 布 。 结 果 符 合 预期 吗 ? 还 是 出 乎 意料 ? 

(4) 组 合 使 用 你 学 习 到 的 两 种 技术 ， 对 cut、carat 和 price 的 组 合 分 布 进行 可 视 化 表示 。 

(5) 二 维 图 形 可 以 显示 一 维 图 形 中 看 不 到 的 离 群 点 。 例 如 ， 以 下 图 形 中 的 有 些 点 具有 异常 的 
x 值 和 y 值 组 合 ， 这 使 得 这 些 点 成 为 了 离 群 点 ， 即 使 这 些 点 的 x 值 和 y 值 在 单独 检验 时 
似乎 是 正常 的 。 

ggplot(data = diamonds) + 


geom point(mapping = aes(x = x, y = y)) + 
coord_cartesian(xlim = c(4, 11), ylim = c(4, 11)) 
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这 种 情况 下 ， 为 什么 散 点 图 的 显示 效果 比分 箱 图 更 好 ? 


5.6 ”模式 和 模型 


数据 中 的 模式 提供 了 关系 线索 。 如 果 两 个 变量 之 间 存 在 系统 性 的 关系 ， 那 么 这 种 关系 就 会 
在 数据 中 表现 为 一 种 模式 。 如 果 发 现 了 模式 ， 需 要 问 自 己 以 下 儿 个 问题 。 


° 这 种 模式 的 出 现 会 不 会 是 一 种 巧合 (也 就 是 随机 的 偶然 因素 ) ? 
。 应 该 如 何 描述 这 种 模式 中 隐 含 的 关系 ? 
。 这 种 模式 中 隐 含 的 关系 有 多 强 ? 
。 其 他 变量 会 如 何 影 响 这 种 关系 ? 

如 果 对 数据 的 独立 分 组 进行 检查 ， 这 种 关系 会 有 所 变化 吗 ? 
我 们 就 前 面 提 到 的 美国 黄石 国家 公园 中 老 忠 实 喷 果 的 喷发 时 长 和 两 次 喷发 之 间 的 等 待 时 间 
做 出 一 张 散 点 图 ， 该 图 会 显示 出 一 个 模式 : 较 长 的 等 待 时 间 与 较 长 的 喷发 时 间 是 相关 的 。 
图 中 还 显示 出 两 个 徐 ， 这 个 我 们 之 前 就 发 现 了 : 

ggpLot(data = faithful) + 

geom_point(mapping = aes(x = eruptions, y = waiting)) 
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模式 是 数据 科学 中 最 有 效 的 工具 之 一 ， 因 为 其 可 以 揭示 相关 变动 。 如 果 说 变动 会 生成 不 确 
定性 ， 那 么 相关 变动 就 是 减少 不 确定 性 。 如 果 两 个 变量 是 共同 变化 的 ， 就 可 以 使 用 一 个 变 
量 的 值 来 更 好 地 预测 另 一 个 变量 的 值 。 如 果 相 关 变 动 可 以 归 因 于 一 种 因果 关系 (一 种 特殊 
情况 )， 那 么 就 可 以 使 用 一 个 变量 的 值 来 控制 另 一 个 变量 的 值 。 

模型 是 用 于 从 数据 中 抽取 模式 的 一 种 工具 。 例 如 ， 我 们 思考 一 下 钻石 数据 。 切 割 质 量 与 价 
格 之 间 的 关系 是 很 难 理解 的 ， 因 为 切割 质量 和 克拉 数 以 及 克拉 数 和 价格 之 间 是 紧密 相关 
的 。 我 们 可 以 使 用 模型 去 除 价 格 和 克拉 数 之 间 的 强 关 系 ， 这 样 就 可 以 继续 研究 剩余 的 微妙 
关系 。 以 下 代码 拟 合 了 一 个 模型 ， 可 以 根据 carat 预测 price， 并 计算 出 残 差 (预测 值 和 
实际 值 之 间 的 差别 )。 一 旦 去 除 克拉 数 对 价格 的 影响 ， 残 差 就 能 反映 出 钻石 的 价格 : 

library(modelr) 










































































mod <- lm(log(price) ~ log(carat), data = diamonds) 


diamonds2 <- diamonds %>% 
add_residuals(mod) %>% 
mutate(resid = exp(resid)) 


ggplot(data = diamonds2) + 
geom_point(mapping = aes(x = carat, y = resid)) 


á 
. & 





resid 
N 


carat 


ARAARA, WAARME AA E RR, AFE 
样 天 小 的 钻石 ， 切 割 质量 更 好 的 销 石 更 昂贵 : 


ggpLot(data = diamonds2) + 
geom_boxplot(mapping = aes(x = cut, y = resid)) 
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我 们 会 在 第 四 部 分 中 介绍 模型 和 modelr 包 的 使 用 方法 。 之 所 以 将 建 模 保留 到 后 面 介绍 ， 是 
因为 一 旦 掌握 了 数据 处 理 和 编程 的 工具 ， 理 解 模型 的 意义 和 工作 原理 就 不 费 吹 灰 之 力 了 。 


5.7 ggplot2 调 用 


结束 这 些 入 门 章节 继续 学 习 前 ， 我 们 还 要 介绍 ggplot2 代码 的 一 种 更 精简 表示 。 迄 今 为 止 ， 
ggplot2 的 代码 已 经 非常 明确 ， 有 助 于 我 们 的 学 习 。 


ggpLot(data = faithful, mapping = aes(x = eruptions)) + 
geom_freqpoly(binwidth = 0.25) 


通常 情况 下 ， 一 个 国 数 的 前 一 个 或 前 两 个 参数 是 非常 重要 的 ， 你 应 该 将 它们 牢记 于 心 。 
ggplot() 函数 的 前 两 个 参数 是 data 和 mapping, aes() 函数 的 前 两 个 参数 是 x 和 y。 在 本 书 
剩余 的 部 分 中 ， 我 们 不 再 写 出 这 些 参数 名 ， 这 样 既 可 以 节省 输入 时 间 ， 也 可 以 让 代码 样板 
更 精简 ， 以 便 更 容易 找 出 两 张 图 之 间 的 不 同 之 处 。 这 是 非常 重要 的 编程 注意 事项 ， 我 们 还 
会 在 第 14 章 中 进行 这 方面 的 讨论 。 
以 更 精简 的 方式 重 写 前 面 的 绘图 语句 ， 结 果 如 下 所 示 : 


ggplot(faithful, aes(eruptions)) + 
geom_freqpoly(binwidth = 0.25) 


有 时 我 们 会 将 数据 转换 管道 操作 的 最 终结 果 转 换 为 一 张 图 。 注 意 ， 此 时 转换 是 用 + 号 实 
现 的 ， 不 是 %>%。 我 也 不 希望 如 此 ， 但 遗憾 的 是 ，ggplot2 是 在 管道 操作 方式 发 明 前 开发 
出 来 的 。 
diamonds %>% 
count(cut, clarity) %>% 
ggplot(aes(clarity, cut, fill = n)) + 
geom_tile() 

























































































A >> N 
5 í 8 更 多 F >J 人 产 
如 果 想 要 学 习 更 多 关于 ggplot2 内 部 机 制 的 内 容 ， 我 们 强烈 推荐 你 买 一 本 ggplot2 参考 书 
(http:/ggplot2.org/book/) 。 这 本 书 最 近 进 行 了 更 新 ， 因 此 其 中 也 包括 了 dplyr 的 代码 ， 还 提供 
了 更 多 内 容 ， 让 你 可 以 探索 数据 可 视 化 的 方方面面 。 遗 憾 的 是 ， 这 本 书 不 太 容 易 免费 获取 ， 
但 如 果 可 以 在 大 学 内 上 网 的 话 ， 那 么 你 可 以 从 SpringerLink 获得 免费 的 电子 版 。 
另 一 项 非常 有 用 的 资源 是 Winston Chang 所 著 的 R Graphic Cookbook， 其 中 多 数 内 容 可 以 
在 线 获得 。 
我 们 还 推荐 Antony Unwin MÆRI Graphical Data Analysis with R。 这 本 书 的 内 容 安 排 和 本 
章 差不多 ,但 讨论 的 深度 远 远 超过 了 本 章 。 
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第 6 章 


工作 流 : 项 目 





总 有 一 天 你 会 退出 R， 做 些 别 的 事情 ， 第 二 天 再 回 过 头 来 继续 完成 分 析 工 作 。 总 有 一 天 你 

会 使 用 R 同时 进行 多 个 分 析 工 作 ， 并 希望 分 门 别 类 地 保存 这 些 工作 。 总 有 一 天 你 会 需要 从 

外 部 世界 将 数据 导入 R， 并 将 数值 结果 和 图 表 从 及 返回 到 现实 世界 。 为 了 解决 这 些 实际 生 

活 中 的 问题 ， 你 需要 做 出 以 下 两 个 决策 。 

(1) 分 析 中 的 哪些 部 分 是 “真实 的 ”? 也 就 是 说 ， 你 会 将 哪些 部 分 保存 下 来 作为 持久 的 
记录 ? 


(2) 你 的 分 析 工作 “位 于 ”哪里 ? 


三 | Sm 
61 什么 是 真实 的 
作为 R 的 一 名 新 手 ， 你 可 以 认为 自己 的 R 环境 〈 也 就 是 环境 窗 格 中 列 出 的 那些 对 象 ) 是 
“真实 的 "。 但 从 长 远 来 看 ， 你 最 好 认为 R 脚本 是 “真实 的 ”。 


可 以 通过 R 脚本 (以 及 数据 文件 ) 重建 R 环境, 但 在 R 环境 中 重建 R 脚本 就 要 困难 得 
多 ! 要 么 被 迫 重 襄 一 次 内 存 中 的 代码 (伴随 着 各 种 输入 错误 )， 要 么 被 迫 在 R 历史 记录 中 
埋头 翻 找 。 


为 了 培养 良好 的 使 用 习惯 ， 我 们 强烈 建议 你 指示 RStudio 不 在 两 次 会 话 间 保 存 工作 空间 。 
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Options 


Default working directory (when not in a project): 


©) 
Y 
R ~ Browse... 


General 
v | Restore most recently opened project at startup 
CGHE v Restore previously open source documents at startup 


Restore .RData into workspace at startup 


ç 
Save workspace to .RData on exit: Í Never ẹ ] 
a p 


v Always save history (even when not saving .RData) 


v Remove duplicate entries in history 


Pane Layout 
Í Use debug error handler only when my code contains errors 
Packages Automatically expand tracebacks in error inspector 
@O Default text encoding: 
Sweave UTF-8 Change... 
ABC 
y v) Automatically notify me of updates to RStudio 
Spelling 
Git/SVN 
— 
Publishing 


L OK Cancel Apply 
这 样 做 会 让 你 短期 内 有 些 难受 ， 因 为 RStudio 在 重新 启动 时 无 法 记 住 前 一 次 运行 代码 的 结 
果 。 但 长 痛 不 如 短 痛 ， 这 样 做 会 迫使 你 将 所 有 重要 的 交互 都 写 在 代码 中 。 如 果 只 是 将 一 次 
重要 计算 的 结果 保存 在 工作 空间 中 ， 而 不 是 将 计算 过 程 本 身 保存 在 代码 中 ， 那 么 3 个 月 后 
你 会 发 现 人 世间 最 痛苦 的 事 莫 过 于 此 。 
组 合 使 用 以 下 快捷 键 可 以 确保 重要 的 代码 都 写 在 了 编辑 器 中 。 
。 按 Ctrl+Shift+F10 来 重启 RStudio。 
° 按 Ctrl+Shift+S 来 重新 运行 当前 脚本 。 
我 们 每 周 会 重复 这 种 工作 模式 几 百 次 。 


6.2 ”你 的 分 析 位 于 哪里 


R 中 有 个 名 为 工作 目录 的 重要 概念 。R 在 这 个 目录 中 查找 你 要 加 载 的 文件 ， 也 将 你 要 保存 
的 文件 放 在 这 个 目录 中 。RStudio 在 控制 台 上 方 显示 当前 工作 目录 。 


Console Find in Files > R Markdown x 















































可 以 通过 运行 getwd() 命令 在 R 代码 中 输出 这 个 目录 : 


getwd() 
#> [1] "/Users/hadley/Documents/r4ds/r4ds" 


作为 R 语 言 新 手 ， 你 可 以 使 用 自己 的 主 目录 、 文 档 目录 或 计算 机 上 其 他 稀奇 古怪 的 目录 作 
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为 R 的 工作 目录 。 但 既然 已 经 学 习 了 本 书 的 6 章 内 容 ， 你 也 应 该 掌握 一 定 的 知识 了 。 从 现 

在 开始 ， 你 应 该 逐渐 学 会 使 用 目录 来 组 织 分析 项 目 ， 每 开始 一 个 项 目 ， 就 应 该 将 R 的 工作 

目录 设置 为 与 这 个 项 目 相 关 的 目录 。 

还 可 以 使 用 RR 的 命令 来 设置 工作 目录 ， 但 我 们 不 建议 使 用 这 种 方法 : 
setwd("/path/to/my/CoolProject") 


不 要 使 用 这 种 操作 ， 因 为 还 有 更 好 的 方法 ， 可 以 让 你 像 专 家 一 样 管理 与 R 相关 的 工作 。 


6.3 路径 与 目录 


路 径 与 目录 稍微 有 一 点 复杂 ， 因 为 路 径 有 2 种 基本 风格 : Mac/Linux 和 Windows。 它 们 主 
要 有 以 下 3 种 区 别 。 


最 重要 的 区 别 是 如 何 分 隔 路 径 中 的 各 个 部 分 。Mac 和 Linux 使 用 的 是 斜 杠 (如 plots/ 
diamonds.pdf), Windows 使 用 的 则 是 反 斜 杠 (如 plots\diamonds.pdf)。R 支持 任意 一 
种 类 型 (不 管 你 现在 使 用 的 是 哪 种 平台 ) , 但 问题 是 , 反 斜 杠 在 R 中 具有 特殊 意义 , 因此 ， 
如 果 想 要 表示 路 人 径 中 的 单个 反 斜 杜 ， 你 需要 输入 2 个 反 斜 杠 ! 这 有 点 令 人 泪 形 ， 因 此 我 
们 建议 你 一 直 使 用 Linux/Mac 风格 的 斜 杠 。 
。 绝对 路 径 ( 即 不 管 你 的 工作 目录 是 什么 ， 都 指向 一 个 位 置 的 路 径 ) 的 形式 不 同 。 在 
Windows 系统 中 ,绝对 路 径 的 开头 是 驱动 器 号 (如 c:) 或 两 个 反 斜 杠 (如 \\servername); 
在 Mac/Linux 系统 中 ， 绝 对 路 径 的 开头 则 是 斜 枉 “/”( 如 /user/hadley)。 干 万 不 要 在 
脚本 中 使 用 绝对 路 径 ， 因 为 不 利于 分 享 : 没有 任何 人 会 和 你 具有 完全 相同 的 目录 设置 。 
最 后 一 个 小 区 别 是 ~ 指向 的 位 置 。~ 是 指向 主 目录 的 一 个 很 方便 的 快捷 方式 。Windows 
其 实 没 有 主 目 录 的 概念 ， 因 此 ~ 指向 的 是 文档 目录 。 


6.4 RStudio 项 目 


R 专家 将 与 项 目 相 关 的 所 有 文件 放 在 一 起 ， 其 中 包括 输入 数据 、R 脚本 、 分 析 结 果 以 及 图 
形 。 因 为 这 是 极其 明智 而 又 通用 的 做 法 ， 所 以 RStudio 通过 项 目 对 这 种 做 法 提供 了 内 置 的 
支持 。 
我 们 建立 一 个 项 目 以 供 你 在 学 习 本 书 剩余 内 容 时 使 用 。 点 击 File 一 New Project, FÆ, 
将 项 目 命名 为 r4ds， 然 后 仔细 思索 一 下 将 项 目 放 在 哪个 子 目录 中 。 如 果 不 将 项 目 放 在 合适 
的 地 方 ， 将 来 就 很 难 找 到 它 了 1 
一 旦 完成 这 个 过 程 ， 你 就 为 本 书 建立 了 一 个 新 的 RStudio 项 目 。 检 查 你 的 项 目的 “ 主 ” 目 
录 是 否 为 当前 工作 目录 : 

getwd() 

#> [1] /Users/hadley/Documents/r4ds/r4ds 


只 要 使 用 相对 路 径 引 用 文件 ，R 就 会 在 这 个 目录 中 寻找 文件 。 









































































































































Í New Project 


Create Project 


New Directory 
=: Start a project in a brand new working directory > 


Existing Directory 
Associate a project with an existing working directory 


Version Control 
Checkout a project from a version control repository 














Cancel 
New Project 
Back Project Type 
Empty Project 
Create a new project in an empty directory > 
a R Package 
R Create a new R package 
É | Shiny Web Application 
t R J Create a new Shiny web application 
Cancel 
New Project 
Back Create New Project 
Directory name: 
Irads 
Create project as subdirectory of: 
L=” [-/Desktop Browse... 


Create a git repository 


Use packrat with this project 


Open in new session Create Project Cancel 


接 下 来 在 脚本 编辑 器 中 输入 以 下 命令 ， 并 保存 这 个 文件 ， 文 件 名 为 diamonds.R。 下 一 步 是 
运行 整个 脚本 ， 将 一 个 PDF 文件 和 一 个 CSV 文件 保存 到 项 目 目录 中 。 不 用 担心 代码 中 的 
细节 ， 你 会 在 本 书后 面 学 到 。 


library(tidyverse) 





ggplot(diamonds, aes(carat, price)) + 
geom_hex() 
ggsave("diamonds.pdf") 


write_csv(diamonds, "diamonds.csv") 
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退出 RStudio， 查 看 项 目 目 





录 ， 你 会 发 现 一 个 .Rproj 文件 。 双 击 这 个 文件 来 重新 打开 项 目 。 





注意 ， 你 又 回 到 了 离开 的 地 方 : 同样 的 工作 目录 ， 同 样 的 命令 历史 ， 你 使 用 过 的 所 有 文件 





都 是 打开 的 。 因 为 按照 上 男 








i 的 指示 进行 了 操作 ， 所 以 你 会 有 一 个 全 新 的 环境 ， 以 确保 可 以 











从 头 开 始 。 


使 用 最 喜欢 的 操作 系统 方式 在 计算 机 中 搜索 diamonds.pdf， 你 不 但 会 找到 PDF 文件 (理应 
如 此 )， 还 会 找到 创建 这 个 文件 的 脚本 (diamondsr)。 这 是 巨大 的 胜利 ! 总 有 一 天 你 会 想 
重新 生成 图 形 ， 或 者 想 知 道 图 形 的 来 源 。 如 果 从 来 不 使 用 鼠标 和 剪贴 板 ， 而 是 严格 使 用 愉 
代码 将 图 形 保存 到 文件 的 话 ， 你 就 可 以 轻松 重 现 以 前 的 工作 ! 





6.5 小结 








总 的 来 说 ，RStudio 项 目 可 以 为 你 提供 一 个 坚实 可 靠 的 工作 流程 ， 对 你 未 来 的 工作 大 有 


神 益 。 





。 为 每 个 数据 分 析 任 务 创 建 RStudio 项 目 。 


。 在 项 目 中 保存 数据 文件 。 


我 们 会 在 第 8 章 中 讨论 将 数据 文件 加 载 到 及 中 的 方法 。 


。 在 项 目 中 保存 脚本 。 编 辑 脚本 并 按照 命令 运行 脚本 或 运行 整个 脚本 。 
。 在 项 目 中 保存 输出 (图 形 和 清洁 的 数据 )。 
只 使 用 相对 路 径 ， 不 要 使 用 绝对 路 径 。 


这 样 一 来 ， 需 要 的 所 有 文件 都 放 在 一 处 了 ， 而 且 与 所 有 其 他 项 目 干净 地 隔离 开 了 。 





























第 二 部 分 


数据 处 理 

















我 们 将 在 这 一 部 分 介绍 数据 处 理 。 数 据 处 理 是 一 门 艺术 ， 将 数据 以 合适 的 形式 导入 及 ， 从 
而 进行 可 视 化 和 建 模 。 数 据 处 理 非 常 重要 : 没有 这 个 过 程 ， 就 无 法 使 用 数据 进行 工作 ! 数 
据 处 理 包 括 3 个 重要 环节 。 








可 视 化 
Poa 


导入 —> 整理 一 上， 转换 


数据 处 理 ` ms 


理解 





编程 
这 一 部 分 的 内 容 安排 如 下 。 


。 第 7 章 将 介绍 数据 框 的 一 种 变 体 : tibble。 我 们 会 在 本 书 中 使 用 这 种 数据 结构 。 你 将 会 
了 解 tibble 和 普通 数据 框 的 区 别 ， 以 及 如 何 “ 手 工 ” 构 造 tibble。 

。 第 8 章 将 介绍 如 何 从 磁盘 读 取 数 据 并 导入 R。 我 们 重点 关注 矩形 格式 的 纯 文 本 文件 ， 但 
会 给 出 一 些 指 示 ， 表 明 哪 些 包 可 以 处 理 其 他 类 型 的 数据 。 

。 第 9 章 将 介绍 一 些 工 具 ， 以 处 理 具 有 多 种 相关 关系 的 数据 集 。 

。 第 10 章 将 介绍 正则 表达 式 ， 即 处 理 字 符 串 的 一 种 强大 工具 。 

。 第 11 章 将 展示 了 如何 保存 分 类 数据 。 当 一 个 变量 的 取 值 范围 是 有 限 集合 ， 或 者 我 们 不 
想 按 字母 顺序 排列 字符 串 时 ， 就 可 以 使 用 分 类 数据 。 

。 第 12 章 将 介绍 处 理 日 期 和 日 期 时 间 型 数据 的 核心 工具 。 
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使 用 tibble 实 现 简 单数 据 框 


7.1 Ar 


本 书 使 用 tibble 代替 传统 的 RR 数据 框 。tibble 是 一 种 简单 数据 框 ， 它 对 传统 数据 框 的 功能 ; 

行 了 一 些 修改 ， 以 便 更 易于 使 用 。R 是 一 门 古 老 的 语言 ， 其 中 有 些 功 能 在 10 年 或 20 年 前 
是 适用 的 ， 但 现在 已 经 过 时 。 在 不 破坏 现 有 代码 的 前 提 下 ， 很 难 修改 R 的 基础 功能 ， 因 此 
多 数 革新 都 是 以 扩展 包 的 方式 出 现 的 。 本 章 会 介绍 tibble 包 ， 其 所 提供 的 简单 数据 框 更 易于 





















































在 tidyverse 中 使 用 。 多 数 情 况 下 ， 我 们 会 交替 使 用 tibble 和 数据 框 这 两 个 术语 ， 如 果 想 要 





特别 强调 R 内 置 的 传统 数据 框 ， 我 们 会 使 用 data.frame 来 表示 。 
如 果 读 完 本 章 后 你 还 想 学 习 有 关 tibble 的 更 多 知识 ， 可 以 使 用 vignette("tibble") 命令 。 


准备 工作 


我 们 将 在 本 章 中 介绍 tidyverse 的 核心 R 包 之 一 

















library(tidyverse) 


7.2 创建 tibble 


本 书 中 使 用 的 所 有 函数 几乎 都 可 以 创建 tibble， 因 为 tibble 是 tidyverse 的 标准 功能 之 一 。 
由 于 多 数 其 他 R 包 使 用 的 是 标准 数据 框 ， 


H 





H as_tibble() 函数 来 完成 转换 : 


as_tibble(iris) 
#> # A tibble: 150 x 5 








因此 你 可 


tibble 包 。 


能 想 要 将 数据 框 转换 为 tibble。 可 以 使 


#> Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


#> <dbl> <dbl> 


<dbl> 


<dbl> <fctr> 
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#1 5,1 3.5 1.4 0.2 setosa 
#> 2 4.9 20 1.4 0.2 setosa 
#> 3 4.7 EA 13 0.2 setosa 
#> 4 4.6 3:1 1.5 0.2 setosa 
#> 5 5. 0 3:6 1.4 0.2 setosa 
#> 6 5.4 3:9 i7 0.4 setosa 
#> # ... with 144 more rows 


可 以 通过 tibble() 函数 使 用 一 个 向 量 来 创建 新 tibble。tibble() 会 自动 重复 长 度 为 1 的 输 
入 ， 并 可 以 使 用 刚刚 创建 的 新 变量 ， 如 下 所 示 : 














tibble( 
xm es 
y = 1, 
z=x^2+y 


) 
#> # A tibble: 5 x 3 


#> x y z 
#> <int> <dbl> <dbl> 
Ws 1 1 2 
#> 2 2 1 5 
#> 3 3 1 10 
#> 4 4 1 17 
A 5 1 26 


如 果 你 已 经 非常 熟悉 data.frame() 函数 ， 那 么 请 注意 tibble() 函数 的 功能 要 少 得 多 : 它 不 
能 改变 输入 的 类 型 (例如 ， 不 能 将 字符 串 转 换 为 因子 )、 变 量 的 名 称 ， 也 不 能 创建 行 名 称 。 


可 以 在 tibble 中 使 用 在 R 中 无 效 的 变量 名 称 〈 即 不 符合 语法 的 名 称 ) 作为 列 名 称 。 例 如 ， 
列 名 称 可 以 不 以 字母 开头 ， 也 可 以 包含 特殊 字符 (如 空格 )。 要 想 引 用 这 样 的 变量 ， 需 要 
使 用 反 引 号 ` 将 它们 括 起 来 : 


tb <- tubble( 
ses E J 
` = "space", 
`2000` = "number" 


) 

tb 

#> # A tibble: 1 x 3 

办 > 和 ”2000 
#> <chr> <chr> <chr> 
#> 1 smile space number 


如 果 要 在 ggplot2 和 dplyr 等 其 他 R 包 中 使 用 这 些 变 量 ， 也 需要 使 用 反 引 号 。 

创建 tibble 的 另 一 种 方法 是 使 用 tribble() 函数 ，tribble 是 transposed tibble ( 转 置 tibble) 
的 缩写 。tribble() 是 定制 化 的 ， 可 以 对 数据 按 行进 行 编码 : 列 标题 由 公式 (以 ~ 开头 ) 
定义 ， 数 据 条 目 以 逗号 分 隔 ， 这 样 就 可 以 用 易 读 的 方式 对 少量 数据 进行 布局 : 








— 





tribble( 
~X, ~y, ~Z, 
ashe 
i u. Sh é 
"b", 3 85 





办 > # A tibble: 2 x 3 


#> x y z 
#> <chr> <dbl> <dbl> 
#> 1 a 2 -36 


#> 2 b #£# 5 


我 通常 会 加 一 条 注释 〈 以 # 开头 的 行 ) 来 明确 指出 标题 行 的 位 置 。 


7.3 对比 tibble 与 data.frame 
tibble 和 传统 data.frame 的 使 用 方法 主要 有 两 处 不 同 : 打印 和 取 子 集 。 


7.3.1 打印 

tibble 的 打印 方法 进行 了 优化 ， 只 显示 前 10 行 结果 ， 并 且 列 也 是 适合 屏幕 的 ， 这 种 方式 非 
常 适 合 大 数据 集 。 除 了 打印 列 名 ，tibble 还 会 打印 出 列 的 类 型 ， 这 项 非常 棒 的 功能 借鉴 于 
str() 函数 。 


tibble( 
a = lubridate::now() + runif(1e3) * 86400, 








b = lubridate::today() + runif(1e3) * 30， 
c Lded; 
d = runif(1e3), 
e = sample(letters, 1e3, replace = TRUE) 
) 
办 > # A tibble: 1,000 x 5 
#> a b Ç d e 
#> <dttm> <date> <int> <dbl> <chr> 


#> 1 2016-10-10 17:14:14 2016-10-17 1 0.368 h 
#> 2 2016-10-11 11:19:24 2016-10-22 20.612 
#> 3 2016-10-11 05:43:03 2016-11-01 3 0.415 
#> 4 2016-10-10 19:04:20 2016-10-31 4 0.212 
#> 5 2016-10-10 15:28:37 2016-10-28 5 0:733 
#> 6 2016-10-11 02:29:34 2016-10-24 6 0.460 
#> # ... with 994 more rows 


在 打印 大 数据 框 时 ，tibble 的 这 种 设计 避免 了 输出 占 满 整个 控制 台 。 但 有 时 需要 比 默 认 显 
示 更 多 的 输出 ， 这 时 就 要 设置 几 个 选项 。 
首先 ， 可 以 明确 使 用 print() 国 数 来 打印 数据 框 ， 并 控制 打印 的 行 数 (Ú) 和 显示 的 宽度 
(width), width = Inf 可 以 显示 出 所 有 列 : 
nycflights13::flights %>% 
print(n = 10, width = Inf) 
还 可 以 通过 设置 以 下 选项 来 控制 默认 的 打印 方式 。 
。 options(tibble.print_max = n, tibble.pring_min = m): 如 果 多 于 m 行 ， 则 只 打印 出 n 
行 。options(tibble.print_min = Inf) 表示 总 是 打印 所 有 行 。 
° options(tibble.width = Inf) 表示 总 是 打印 所 有 列 ， 不 考虑 屏幕 的 宽度 。 


< Q x — > 
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可 以 使 用 package?tibble 命令 调 出 这 个 包 的 帮助 文件 ， 查 看 全 部 的 选项 列表 。 
最 后 一 种 方式 是 使 用 RStudio 内 置 的 数据 查看 器 ， 以 滚动 方式 查看 整个 数据 集 。 进 行 一 长 
串 数据 处 理 操作 后 ， 经 常会 使 用 这 种 查看 方式 : 


nycflights13::flights %>% 
View() 


7.3.2 RTE 


迄今 为 止 ， 你 学 到 的 所 有 工具 都 是 作用 于 整个 数据 框 。 如 果 想 要 提取 单个 变量 ， 那 么 就 需 
要 一 些 新 工具 ， 如 $ 和 [[。[[ 可 以 按 名 称 或 位 置 提取 变量 ，$ 只 能 按 名称 提 取 变 量 ， 但 可 
以 减少 一 些 输入 : 

df <- tibble( 

X = runif(5), 


y = rnorm(5) 
) 


# 按 名 称 提 取 

df$x 

#> [1] 0.434 0.395 0.548 0.762 0.254 
df[["x"]] 

#> [1] 0.434 0.395 0.548 0.762 0.254 


# 按 位 置 提取 
df[[1]] 
#> [1] 0.434 0.395 0.548 0.762 0.254 


要 想 在 管道 中 使 用 这 些 提取 操作 ， 需 要 使 用 特殊 的 占 位 符 .: 


df %>% .Šx 

#> [1] 0.434 0.395 0.548 0.762 0.254 
df %>% .[["x"]] 

#> [1] 0.434 0.395 0.548 0.762 0.254 


与 data.frame 相 比 ，tibble 更 严格 : 它 不 能 进行 部 分 匹配 ， 如 果 想 要 访问 的 列 不 存在 


会 生成 一 条 警告 信息 。 


7.4 与 旧 代 码 进行 交互 


有 些 比较 旧 的 函数 不 支持 tibble。 如 果 仙 到 这 种 函数 ， 可 以 使 用 as.data.frame() 函数 将 
tibble 转换 回 data. frame: 


class(as.data.frame(tb)) 
#> [1] "data.frame" 


有 些 旧 函数 不 支持 tibble 的 主要 原因 在 于 [的 功能 。 本 书 没 有 使 用 大 多 的 [， 因 为 
dplyr::filter() 和 dplyr::select() 可 以 通过 更 加 清晰 的 代码 解决 同样 的 问题 (你 可 以 在 
16.4.5 节 中 学 到 [的 一 些 使 用 方法 )。 对 于 R 基础 包 中 的 数据 框 ，[ 有 时 返回 一 个 数据 框 ， 
有 时 返回 一 个 向 量 。 对 于 tibble，[ 则 总 是 返回 另 一 个 tibble。 














它 























练习 
(1) 如 何 识别 一 个 对 象 是 否 为 tibble ? (提示 : 尝试 打印 出 标准 数据 框 mtcars。) 


(2) 对 比 在 data.frame 和 等 价 的 tibble 上 进行 的 以 下 操作 。 有 何 区 别 ? 为 什么 默认 的 数据 框 
操作 会 让 人 感到 诅 趟 ? 
df <- data.frame(abc = 1, xyz = "a") 
dfSx 
df[ ，"xyz"] 
dfi; e("abce", "xyz"y] 


(3) 如 果 将 一 个 变量 的 名 称 保存 在 一 个 对 象 中 ， 如 var <- "mpg"， 如 何 从 tibble 中 提取 出 这 


个 变量 ? 

i a 量 名 。 
a. 提取 名 称 为 1 的 变 
b. 绘制 表示 变量 ass 量 2 关系 的 散 点 图 。 
c. 创建 一 个 名 称 为 3 的 新 列 ， 其 值 为 列 2 除 以 列 1。 
d. 将 这 些 列 重新 命名 为 one、two 和 three。 


annoying <- tibble( 

T = mo, 

`2` = `1` * 2 + rnorm(length(`1`)) 
) 


(5) tibble: :enframe() 国 数 的 功能 是 什么 ?什么 时 候 可 以 使 用 这 个 国 数 ? 
(6) 哪个 选项 控制 在 tibble 底部 打印 的 额外 列 名 称 的 数量 ? 
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第 8 和 章 


使 用 readr 进 行 数据 导入 





8.1 简介 
使 用 R 包 提供 的 数据 是 学 习 数据 科学 工具 的 良好 方法 ， 但 你 总 要 在 某 个 时 间 停止 学 习 ， 开 
始 处 理 自 己 的 数据 。 你 将 在 本 章 中 学 习 如 何 将 纯 文 本 格式 的 矩形 文件 读 和 人 R。 虽 然 本 章 内 
容 只 是 数据 导入 的 冰山 一 角 ， 但 其 中 的 原则 完全 适用 于 其 他 类 型 的 数据 。 本 章 末尾 将 提供 
一 些 有 用 的 R 包 ， 以 处 理 其 他 类 型 的 数据 。 


准备 工作 
你 将 在 本 章 中 学 习 如 何 使 用 readr 包 将 平面 文件 加 载 到 RR 中 ，readr 也 是 tidyverse 的 核心 R 
包 之 一 。 


library(tidyverse) 


8.2 入 门 


readr 的 多 数 函 数 用 于 将 平面 文件 转换 为 数据 框 。 


read_csv() 读 取 逗号 分 隔 文 件 、read_csv2() 读 取 分 号 分 隔 文件 (这 在 用 , 表示 小 数位 
的 国家 非常 普遍 )、read_tsv() 读 取 制 表 符 分 隔 文件 、read_deLim() 可 以 读 取 使 用 任意 
分 隔 符 的 文件 。 

read_fwf() 读 取 国 定 宽度 的 文件 。 既 可 以 使 用 fwf_widths() 函数 按照 宽度 来 设 定 域 ， 也 可 
以 使 用 fwf_positions() 函数 按照 位 置 来 设 定 域 。read_table() 读 取 固 定 宽 度 文件 的 一 种 常 
用 变 体 ， 甚 中 使 用 空白 字符 来 分 隔 各 列 。 
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。 read_log() 读 取 Apache 风格 的 日 志文 件 。( 但 需要 检查 是 否 安装 了 webreadr 包 ，https:/ 
github.com/Ironholds/webreadr， 因 为 该 包 位 于 read_log() 函数 的 开头 ， 还 可 以 提供 很 多 
有 用 的 工具 。) 


这 些 函 数 都 具有 同样 的 语法 ， 你 完全 可 以 举一反三 。 在 本 章 余 下 的 内 容 中 ， 我 们 将 重点 介 
绍 read_csv() 函数 ,不仅 因 为 CSV 文件 是 数据 存储 最 和 常用 的 形式 之 一 ， 还 因为 一 旦 掌握 
read_csv() 国 数 ， 你 就 可 以 将 从 中 学 到 的 知识 非常 轻松 地 应 用 于 readr 的 其 他 函数 。 


read_csv() 函数 的 第 一 个 参数 是 最 重要 的 ， 该 参数 是 要 读 取 的 文件 的 路 径 : 


heights <- read_csv("data/heights.csv") 
#> Parsed with column specification: 
#> cols( 

#> earn = col_double(), 

#> height = col_double(), 

#> sex = col_character(), 

#> ed = col_integer(), 

#> age = col_integer(), 

#> race = col_character() 

















当 运 行 read_csv() 时 ， 它 会 打印 一 份 数 据 列 说 明 ， 给 出 每 个 列 的 名 称 和 类 型 。 这 是 readr 
的 一 项 重要 功能 ，8.4 市 将 继续 讨论 这 项 功能 。 


你 还 可 以 提供 一 个 行内 CSV 文件 。 这 种 文件 非常 适合 使 用 readr 进行 实验 ， 以 及 与 他 人 分 
享 可 重 现实 例 的 情况 


read_csv("a,b,c 


12,3 

4,5,6") 

#> # A tibble: 2x3 
#> a b € 
#> <int> <int> <int> 
#> 1 T 2 3 


#> 2 4 5 6 


以 上 两 种 情况 下 ，read_csv() 函数 都 使 用 数据 的 第 一 行 作为 列 名 称 ， 这 是 一 种 常见 做 法 。 
你 或 许 想 在 以 下 两 种 情况 下 改变 这 种 做 法 。 


。 有 时 文件 开头 会 有 好 几 行 元 数据 。 你 可 以 使 用 skip = n 来 跳 过 前 n 行 ; 或 者 使 用 
comment = "#" 来 丢弃 所 有 以 # 开头 的 行 : 


read_csv("The first line of metadata 
The second line of metadata 
K AE 2 
12,3"; Skip- = 2) 

#> # A tibble: 1 x 3 


#> x y z 
办 >  <int> <int> <int> 
#> 1 J 2 3 


read_csv("# A comment I want to skip 
X,y,Z 
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1,2,3", comment = "#") 
#> # A tibble: 1 x 3 


#> x y z 
#> <ints <int> <int> 
#> 1 £ 2 3 


数据 没有 列 名 称 。 可 以 使 用 col_names = FALSE 来 通知 read csv 不 要 将 第 一 行 作 为 列 
标题 ， 而 是 将 各 列 依次 标注 为 xi 至 xn: 


read_csv("1,2,3\n4,5,6", col_names = FALSE) 
办 # A tibble: 2 x 3 


#> X1 X2 X3 
#> <int> <int> <int> 
#> 1 1 2 3 


#> 2 4 5 6 


"\n" 是 非常 便捷 的 快捷 方式 ， 用 于 添加 新 行 。10.2 Na (Y g£ T "n" 和 其 他 转 义 
字符 的 知识 。) 
或 者 你 也 可 以 向 col_names 传递 一 个 字符 向 量 ， 以 用 作 列 名 称 : 


read csv("1,2,3Vn4,5,6", COL names = c("x", "y", "2")) 
#> # A tibble: 2 x 3 


> 





#> x y Z 
#> <int> <int> <int> 
#1 4 2 3 


#> 2 4 5 6 


另 一 个 通常 需要 修改 的 选项 是 na。 它 设 定 使 用 哪个 值 〈 或 哪些 值 ) 来 表示 文件 中 的 缺失 值 : 


read esv (“a b cumi. Za Wa = "y 
#> # À tibbles 2 x 3 

#> a b fal 

#> _ <int> <int> <chħr> 

#> 1 5i 2 <NA> 


REHE TEAR, J6Z g RRK e PEA 75% 的 文件 了 。 你 还 可 以 轻松 
地 扩展 已 经 学 到 的 知识 ， 使 用 read_tsv() 函数 来 读 取 制 表 符 分 隔 文件 ， 或 使 用 read_fwf() 
函数 来 读 取 固定 宽度 的 文件 。 如 果 想 要 读 取 难度 更 大 的 文件 ， 则 需要 学 习 更 多 知识 ， 了 解 
readr 如 何 解析 每 一 列 ， 并 将 其 转换 为 R 中 的 癌 量 。 


8.2.1 与 R 基 础 包 进 行 比较 


如 果 以 前 使 用 过 RR， 那么 你 肯定 很 想 知 道 我 们 为 什么 不 使 用 read.csv() 函数 。 相 对 于 R 基 
础 包 中 具有 同样 功能 的 函数 ， 我 们 更 喜欢 使 用 readr 中 的 函数 ， 理 由 如 下 。 
一 般 来 说 ， 它 们 比 基 础 模块 中 的 函数 速度 更 快 ( 约 快 10 倍 )。 因 为 运行 时 间 很 长 的 任务 
都 会 有 一 个 进度 条 ， 所 以 你 可 以 看 到 哪个 函数 更 快 。 如 果 只 考虑 速度 的 话 ， 还 可 以 尝试 
使 用 data.table::fread()。 这 个 函数 与 tidyverse 的 兼容 性 不 是 很 好 ， 但 确实 更 快 一 些 。 
它们 可 以 生成 tibble， 并 且 不 会 将 字符 向 量 转换 为 因子 ， 不 使 用 行 名 称 ， 也 不 会 随意 
改动 列 名 称 。 这 些 都 是 使 用 R 基础 包 时 常见 的 令 人 诅 形 的 事情 。 





























。 它们 更 易于 重复 使 用 。R 基础 包 中 的 函数 会 继承 操作 系统 的 功能 ， 并 依赖 环境 变量 ， 因 
此 ， 可 以 在 你 的 计算 机 上 正常 运行 的 代码 在 导入 他 人 计算 机 时 ， 不 一 定 能 正常 i 


8.2.2 练习 
(1) 如 果 一 个 文件 中 的 域 是 由 “|” 分 隔 的 ， 那 么 应 该 使 用 哪个 函数 来 读 取 这 个 文件 ? 


(2) 除 了 file、skip 和 comment， 还 有 哪些 参数 是 read_csv() 和 read_tsv() 这 两 个 函数 共 
有 的 ? 


(3) read_fwf() 函数 中 最 重要 的 参数 是 什么 ? 


(4) 有 时 CSV 文件 中 的 字符 串 会 包含 逗号 。 为 了 防止 引发 问题 ， 需 要 用 引号 (如 "或 ') 
将 喜 号 围 起 来 。 按 照 惯例 ，read_csv() 默认 引号 为 "， 如 果 想 要 改变 默认 值 ， 就 要 转 而 
使 用 read_delim() 函数 。 要 想 将 以 下 文本 读 入 一 个 数据 框 ， 需 要 设 定 哪 些 参 数 ? 


"yni abt” 
(5) 找 出 以 下 每 个 行内 CSV 文件 中 的 错误 。 如 果 运 行 代码 ， 会 发 生 什 么 情况 ? 


read_csv("a,b\n1,2,3\n4,5,6") 
read csv( "acENnti2Nn1 2535 
read_csv("a,b\n\"1") 
read_csv("a,b\n1,2\na,b") 
read_csv("a;b\n1;3") 
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在 详细 介绍 readr 如 何 从 磁盘 读 取 文 件 前 ， 我 们 需要 先 讨 论 一 下 parse_*() 函数 族 。 这 些 函 
数 接受 一 个 字符 向 量 ， 并 返回 一 个 特定 向 量 ， 如 逻辑 、 整 数 或 日 期 向 量 : 
str(parse_logical(c("TRUE", "FALSE", "NA"))) 

#> logi [1:3] TRUE FALSE NA 

str(parse_integer(c("1", "2", "3"))) 

#> üne [1:3] 3 2 3 

str(parse_date(c("2010-01-01", "1979-10-14"))) 

#> Date[1:2], format: "2010-01-01" "1979-10-14" 


这 些 函 数 各 司 其 职 ， 且 都 是 readr 的 重要 组 成 部 分 。 一 旦 掌握 了 本 节 中 这 些 单个 解析 函数 
的 用 法 ， 我 们 就 可 以 继续 讨论 如 何 综合 使 用 它们 来 解析 整个 文件 了 。 

和 tidyverse 中 的 所 有 函数 一 样 ，parse_*() 函数 族 的 用 法 是 一 致 的 。 第 一 个 参数 是 需要 解 
析 的 字符 向 量 ，na 参数 设 定 了 哪些 字符 串 应 该 当 作 和 缺失 值 来 处 理 : 


parse_integer(c("1", "231", ".", "456"), na = ".") 
#> [1] 1 231 NA 456 


如 果 解 析 失 败 ， 你 会 收 到 一 条 警告 : 


x <- parse_integer(c("123", "345", "abc", "123.45")) 
#> Warning: 2 parsing failures. 
#> row col expected actual 
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#> 3 -- an integer abc 
#> 4 -- no trailing characters .45 


解析 失败 的 值 在 输出 中 是 以 缺失 值 的 形式 存在 的 : 


X 
#> [1] 123 345 NA MNA 
#> attr(,"problems") 
#> # A tibble: 2x4 


#> row col expected actual 
#>  <int> <int> <chr> <chr> 
#> 1 3 NA an integer abc 
#> 2 4 NA no trailing characters .45 


如 果 解 析 失 败 的 值 很 多 ， 那 么 就 应 该 使 用 problems() 函数 来 获取 完整 的 失败 信息 集合 。 
个 函数 会 返回 一 个 tibble， 你 可 以 使 用 dplyr 包 来 进行 处 理 : 


[ey 


problems(x) 

#> # A tibble: 2 x 4 

#> row col expected actual 
#> <int> <int> <chr> <chr> 
#> 1 3 NA an integer abc 
#> 2 4 NA no trailing characters .45 


在 解析 函数 的 使 用 方面 ， 最 重要 的 是 要 知道 有 哪些 解析 函数 ， 以 及 每 种 解析 函数 用 来 处 理 
哪 种 类 型 的 输入 。 具 体 来 说 ， 重 要 的 解析 函数 有 8 种 。 


parse_logical() 和 parse_integer() 函数 分 别 解析 逻辑 值 和 整数 。 因 为 这 两 个 解析 函数 
基本 不 会 出 现 问 题 ， 所 以 我 们 不 再 进行 更 多 介绍 。 
parse_double() 是 严格 的 数值 型 解析 函数 ,parse_number() 则 是 灵活 的 数值 型 解析 函数 。 
这 两 个 函数 要 比 你 预想 的 更 复杂 ， 因 为 世界 各 地 书写 数值 的 方式 不 尽 相 同 。 

e parse_character() 国 数 似 乎 太 过 简单 ， 甚 至 没 必要 存在 。 但 一 个 环 手 的 问题 使 得 这 个 
函数 变 得 非常 重要 : 字符 编码 。 
parse_factor() 国 数 可 以 创建 因子 ，R 使 用 这 种 数据 结构 来 表示 分 类 变量 ， 该 变量 具有 
国定 数目 的 已 知 值 。 
parse_datetime(). parse_date() 和 parse_time() 国 数 可 以 解析 不 同类 型 的 日 期 和 时 间 。 
它们 是 最 复杂 的 ， 因 为 有 太 多 不 同 的 日 期 书写 形式 。 


我 们 将 在 以 下 各 市 中 更 加 详细 地 介绍 这 些 解析 函数 。 


8.3.1 ”数值 

解析 数值 似乎 是 非常 直截了当 的 ， 但 以 下 3 个 问题 增加 了 数值 解析 的 复杂 性 。 
世界 各 地 的 人 们 书写 数值 的 方式 不 尽 相同 。 例 如 ， 有 些 国 家 使 用 . 来 分 隔 实数 中 的 整数 
和 小 数 部 分 ， 而 有 些 国家 则 使 用 ,。 

。 数值 周围 经 常 有 表示 某 种 意义 的 其 他 字符 ， 如 $1000 或 10%, 

。 数值 经 常 包含 “分 组 ”， 以 便 更 易 读 ， 如 1 000 000， 而 且 世 界 各 地 用 来 分 组 的 字符 也 不 
尽 相 同 。 






































为 了 解决 第 一 个 问题 ，readr 使 用 了 “地 区 ”这 一 概念 ， 这 是 可 以 按照 不 同 地 区 设置 解析 选 
项 的 一 个 对 象 。 在 解析 数值 时 ， 最 重要 的 选项 就 是 用 来 表示 小 数 点 的 字符 。 通 过 创建 一 个 
新 的 地 区 对 象 并 设 定 decimal_mark 参数 ， 可 以 覆盖 . 的 默认 值 : 

parse_double("1.23") 

#> [1] 3.23 


parse_double("1,23", locale = locale(decimal_mark = ",")) 
#> [1] 1.23 


readr 的 默认 地 区 是 US-centric， 因 为 R 是 以 美国 为 中 心 的 (也 就 是 说 ，R 基础 包 的 文档 是 
用 美式 英语 写成 的 )。 和 获取 默认 地 区 设置 的 另 一 种 方法 是 利用 操作 系统 ， 但 这 种 方法 很 难 
奏效 ， 更 重要 的 是 ， 这 会 让 你 的 代码 很 脆弱 : 即使 可 以 在 你 的 计算 机 上 良好 运行 ， 但 通过 
电子 邮件 分 享 给 男 一 个 国家 的 同事 时 ， 就 可 能 失效 。 


parse_number() 解决 了 第 二 个 问题 : 它 可 以 忽略 数值 前 后 的 非 数 值 型 字符 。 这 个 函数 特别 
适合 处 理 货币 和 百分比 ， 也 可 以 提取 骨 在 文本 中 的 数值 : 


parse_number("$100") 

#> [1] 100 

parse_number ("20%") 

#> [1] 20 

parse_number("It cost $123.45") 
#> [1] 123 


a parse_number() 和 地 区 设置 可 以 解决 最 后 一 个 问题 ， 因 为 parse_number() 可 以 忽 
“分 组 符号 ”: 


# 适用 于 美国 
parse_number("$123,456,789") 
#> [1] 1.23e+08 

















# 适用 于 多 数 欧 洲 国家 
parse_number( 
"423.456.789", 
locale = locale(grouping mark = ".") 
) 
#> [1] 1.23e+08 





# 适用 于 瑞士 
parse_number( 
"123'456'789", 
locale = locale(grouping mark = "'") 
) 
#> [1] 1.23e+08 


8.3.2 FR 


parse_character() 国 数 似乎 真 的 很 简单 ， 只 要 返回 输入 值 就 可 以 了 。 问 题 是 生活 没 这 么 简 
单 ， 因 为 同一 个 字符 串 有 多 种 表示 方式 。 为 了 理解 个 中 缘由 ， 我 们 需要 深入 介绍 一 下 计算 
机 是 如 何 表 示 字 符 串 的 。 在 R 中， 我 们 可 以 使 用 charToRaw() 函数 获得 一 个 字符 串 的 底层 
表示 : 
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charToRaw("Hadley") 
#> [1] 48 61 64 6c 65 79 


每 个 十 六 进 制 数 表示 信息 的 一 个 字 节 : 48 是 H、61 是 a 等。 从 十 六 进 制 数 到 字符 的 这 种 映 
射 称 为 编码 ， 这 个 示例 中 的 编码 方式 称 为 ASCII。ASCII 可 以 非常 好 地 表示 英文 字符 ， 因 
为 它 就 是 美国 信息 交换 标准 代码 (American Standard Code for Information Interchange) 的 
缩写 。 


对 于 英语 之 外 的 其 他 语言 ， 事 情 就 变 得 更 加 复杂 了 。 计 算 机 发 展 的 早期 阶段 有 很 多 为 非 英 
语 字符 进行 编码 的 标准 ， 它 们 之 间 甚 至 是 相互 矛盾 的 。 要 想 正确 表示 一 个 字符 串 ， 不 仅 
需要 知道 它 的 值 ， 还 要 知道 其 编码 方式 。 例 如 ，Latinl (BH ISO-8859-1， 用 于 西欧 语言 ) 
和 Latin2 (BH ISO-8859-2， 用 于 东欧 语言 ) 是 两 种 常用 的 编码 方式 。 字 节 bi 在 Latin1 
中 表示 “ 土 "， 但 在 Latin2 中 则 表示 “a”! 好 在 现在 有 一 种 几乎 所 有 语言 都 支持 的 标准 : 
UTF-8, UTF-8 可 以 为 现在 人 类 使 用 的 所 有 字符 进行 编码 ， 同 时 还 支持 很 多 特殊 字符 (如 
表情 符号 ! )。 


readr 全 面 支持 UTF-8: 当 读 取 数 据 时 ， 它 假设 数据 是 UTF-8 编码 的 ， 并 总 是 使 用 UTF-8 
编码 写 人 数据 。 这 是 非常 好 的 默认 方式 ， 但 对 于 从 不 支持 UTF-8 的 那些 旧 系 统 中 产生 的 数 
据 则 无 能 为 力 。 遇 到 这 种 情况 时 ， 你 的 字符 串 打 印 出 来 就 是 一 堆 乱 码 。 有 时 只 有 一 两 个 字 
符 是 乱码 ， 有 时 则 完全 不 知 所 云 。 例 如 : 


x1 <- "EL Ni\xf1io was particularly bad this year" 
x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd" 


要 想 解决 这 个 问题 ， 需 要 在 parse_character() KAP EIAN: 


parse_character(x1, locale = locale(encoding = "Latin1")) 

#> [1] "El Niño was particularly bad this year" 

parse_character(x2, locale = locale(encoding = "Shift-JIS")) 

#> [1] "SACAR" 
如 何 才 能 找到 正确 的 编码 方式 呢 ? 如 果 足 够 幸运 ， 那 么 编码 方式 可 能 就 写 在 数据 文档 中 。 
遗憾 的 是 这 种 情况 非常 罕见 ， 因 此 readr 提供 了 guess_encoding() 函数 来 帮助 你 找 出 编码 
方式 。 但 这 个 函数 并 非 万 无 一 失 ， 如 果 有 大 量 文本 (不 像 本 例 )， 效 果 就 会 更 好 ， 它 确实 
是 一 个 良好 的 起 点 。 和 希望 试验 几 次 后 ， 你 就 能 够 找到 正确 的 编码 方式 ; 


guess_encoding(charToRaw(x1)) 





















































#> encoding confidence 
#> 1 IS0-8859-1 0.46 
#> 2 IS0-8859-9 0.23 


guess_encoding(charToRaw(x2)) 

#> encoding confidence 

#> 1 KOI8-R 0.42 
guess_encoding() 的 第 一 个 参数 可 以 是 一 个 文件 路 径 ， 也 可 以 是 一 个 原始 向 量 〈 适 用 于 字 
符 串 已 经 在 R 中 的 情况 ) ， 就 像 本 示例 一 样 。 
编码 问题 博大 精深 ， 这 里 我 们 只 是 晴 蚜 点 水 式 地 介绍 一 下 。 如 果 想 要 学 习 更 多 相关 知识 ， 
我 们 推荐 你 阅读 http://kunststube.net/encoding/ 中 的 详细 说 明 。 








8.3.3 因子 


R 使 用 因子 表示 取 值 范围 是 已 知 集合 的 分 类 变量 。 如 果 parse_factor() 国 数 的 levels 参数 
被 赋予 一 个 已 知 向 量 ， 那 么 只 要 存在 向 量 中 没有 的 值 ， 就 会 生成 一 条 警告 . 





























fruit <- c("apple", "banana") 

parse_factor(c("apple", "banana", "bananana"), levels = fruit) 
#> Warning: 1 parsing failure. 

#> row col expected actual 

#> 3 -- value in level set bananana 

#> [1] apple banana <NA> 

#> attr(,"problems") 

#> # A tibble: 1 x 4 


#> row col expected actual 
#> <int> <int> <chr> <chr> 
#> 1 3 NA value in level set bananana 


#> Levels: apple banana 





如 果 有 很 多 问题 条 目的 话 ， 通 常 更 简单 的 做 法 是 将 它们 作为 字符 向 量 ， 然 后 使 用 将 在 第 10 
章 和 第 11 章 中 介绍 的 工具 来 进行 数据 清理 。 


8.3.4 日 期 、 日 期 时 间 与 时 间 


根据 需要 的 是 日 期 型 数据 (从 1970-01-01 开始 的 天 数 )、 日 期 时 间 型 数据 (从 1970-01-01 
午夜 开始 的 秒 数 )， 或 者 是 时 间 型 数据 (从 午夜 开始 的 秒 数 )， 我 们 可 以 在 3 种 解析 函数 之 
间 进 行 选择 。 在 没有 使 用 任何 附加 参数 时 调用 ， 具 体 情 况 如 下 。 


parse_datetime() 期 待 的 是 符合 ISO 8601 标准 的 日 期 时 间 。ISO 8601 是 一 种 国际 标准 ， 
其 中 日 期 的 各 个 部 分 按 从 大 到 小 的 顺序 排列 ， 即 年 、 月 、 日 、 小 时 、 分 钟 、 秒 : 


parse_datetime("2010-10-01T2010") 
#> [1] "2010-10-01 20:10:00 UTC" 


# 如 果 时 间 被 省 略 了 ， 那 么 它 就 会 被 设置 为 午夜 
parse_datetime("20101010") 
#> [1] "2010-10-10 UTC" 




















这 是 最 重要 的 日 期 /时 间 标准 ， 如 果 经 常 使 用 日 期 和 时 间 ， 我 们 建议 你 阅读 一 下 维基 百 
科 上 的 ISO 8601 标准 。 


parse_date() 期 待 的 是 四 位 数 的 年 份 、 一 个 - 或/ 月、 一 个 -或 /， 然 后 是 日 : 


parse_date("2010-10-01") 
#> [1] "2010-10-01" 


parse_time() 期 待 的 是 小 时 、: 、 分 钟 、 可 选 的 : 和 秒 , 以 及 一 个 可 选 的 a.m./p.m. 标识 符 : 


library(hms) 
parse_time( "01:10 am") 
#> 01:10:00 
parse_time("20:10:01") 
#> 20:10:01 


为 R 基础 包 中 没有 能 够 很 好 表示 时 间 数 据 的 内 置 类 ， 所 以 我 们 使 用 hms 包 提 供 的 时 间 类 。 


Ëq 
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如 果 这 些 默 认 设 置 不 适合 


部 分 组 成 。 


年 


%Y (4 位 数 )。 


%y (2 位 数 ，00-69 一 2000-2069、70-99 一 1970-1999)。 


%m (2 位 数 )。 
%b (简写 名 称 ， 如 Jan)。 
%B (完整 名 称 ， 如 January). 


%d (1 位 或 2 位 数 )。 
%e (2 位 数 ) 


时 间 


0-23 小 时 )。 
0-12 小 时 ， 必 须 和 %p 一 起 使 用 )。 


%H ( 
( 

%p (表示 a.m./p.m.) o 
( 
( 


%I 


分 钟 )。 
%S (整数 秒 )。 
%0S (实数 秒 )。 


%M 


你 的 数据 ， 那 么 你 可 以 提供 自己 的 日 期 时 间 格式 ， 格 式 由 以 下 各 


%Z (时 区 ，America/Chicage 这 样 的 名 称 )。 注 意 ， 要 当心 缩写 。 如 果 你 是 美国 人 ,注意 
EST 是 加 拿 大 没有 夏 时 制 的 一 个 时 区 。 它 表示 东部 标准 时 间 ! 我 们 还 会 在 12.5 节 中 继 


续 讨 论 这 个 话题 。 


%z (与 国际 标准 时 间 的 时 差 ， 如 +0800). 


非 数 值 字符 


找 出 正确 格式 的 最 好 方法 是 创建 几 个 解析 字符 向 量 的 示例 ， 
试 。 


%. 〈《 跳 过 一 个 非 数 值 字符 )。 
%* 〈 跳 过 所 有 非 数值 字符 )。 


例如 : 


parse_date("01/02/15", "%m/%d/%y") 
#> [1] "2015-01-02" 
parse_date("01/02/15", "%d/%m/%y") 
#> [1] "2015-02-01" 
parse_date("01/02/15", "%y/%m/%d") 
#> [1] "2001-02-15" 





并 使 用 某 种 解析 函数 进行 测 











如 果 对 非 英语 月 份 名 称 使 用 ‰b 或 ‰， 那 么 你 就 需要 在 locale() 函数 中 设置 lang 参数 。 查 
看 date_names_Langs() 国 数 中 的 内 置 语 言 列 表 ， 如 果 你 的 语言 没有 包括 在 内 ， 那 么 可 以 使 
用 date_names() 函数 创建 自己 的 月 份 和 日 期 名 称 : 


parse_date("1 janvier 2015", "%d %B %Y", locale = locale("fr")) 
办 > [1] "2015-01-01" 

















8.3.5 ”练习 
(1) Locale() 函数 中 最 重要 的 参数 是 什么 ? 


(2) 如 果 将 decimal_mark 和 grouping_mark 设 为 同一 个 字符 ， 会 发 生 什么 情况 ?如 果 将 decimal_ 
mark 设 为 ,, grouping_mark 的 默认 值 会 发 生 什 么 变化 ? 如 果 将 grouping_mark 设 为 .， 
decimal_mark 的 默认 值 会 发 生 什么 变化 ? 


(3) 我们 没有 讨论 过 locale() 函数 的 date_format 和 time_format 选项 ， 它 们 的 作用 是 什 
么 ? 构建 一 个 示例 ， 说 明 它 们 在 何 种 情况 下 是 有 用 的 ? 

(4) 如 果 你 不 是 居住 在 美国 ， 创 建 一 个 新 的 地 区 对 象 ， 并 封装 你 最 常 读 取 的 文件 类 型 的 相关 
设置 。 

(5) read_csv() 和 read_csv2() 之 间 的 区 别 是 什么 ? 


(6) 欧洲 最 常用 的 编码 方式 是 什么 ?亚洲 最 常用 的 编码 方式 是 什么 ?可 以 使 用 google 找 出 
答案 。 


(7) 生成 正确 形式 的 字符 串 来 解析 以 下 日 期 和 时 间 。 





























<- "January 1, 2010" 

<- "2015-Mar-07" 

<- "06-Jun-2017" 

d4 <- c("August 19 (2015)", "July 1 (2015)") 
<- "12/30/14" # 2014 年 12 月 30 日 

<- "1705" 

<= "1115:10:12 PHM" 


8.4 解析 文件 
现在 你 已 经 学 会 了 如 何 解析 单个 向 量 ， 接 下 来 我 们 就 回 到 本 章 的 最 初 目标 ， 研 究 readr 是 
如 何 解析 文件 的 。 你 将 在 本 节 中 学 到 以 下 两 种 新 技能 。 


。 readr 如 何 自动 猜 出 文件 每 列 的 数据 类 型 。 
如 何 修改 默认 设置 。 


8.4.1 策略 

readr 使 用 一 种 启发 式 过 程 来 确定 每 列 的 类 型 : 先 读 取 文 件 的 前 1000 行 ， 然 后 使 用 (相对 保 
守 的 ) 某 种 启发 式 算 法 确定 每 列 的 类 型 。 可 以 使 用 字符 向 量 模拟 这 个 过 程 ， 先 使 用 guess_ 
parser() 函数 返回 readr 最 可 信 的 猜测 ， 接 着 parse_guess() 函数 使 用 这 个 猜测 来 解析 列 : 
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guess_parser("2010-10-01") 

#> [1] "date" 
guess_parser("15:01") 

#> [1] "time" 
guess_parser(c("TRUE", "FALSE")) 
#> [1] "logical" 
guess_parser(c("1", "5", "9")) 
#> [1] "integer" 
guess_parser(c("12,352,561")) 
#> [1] "number" 


str(parse_guess("2010-10-10")) 
#> Date[1:1], format: "2010-10-10" 


这 个 启发 式 过 程 会 尝试 以 下 每 种 数据 类 型 ， 直 至 找到 匹配 的 类 型 。 
逻辑 值 
只 包括 F、T、FALSE 和 TRUE。 


只 包括 数值 型 字符 (以 及 -)。 
双 精 度 浮 点 数 
只 包括 有 效 的 双 精 度 浮 点 数 (也 包括 4.5e-5 这 样 的 数值 )。 





数值 
只 包括 带 有 分 组 符号 的 有 效 双 精 度 浮 点 数 。 
时 间 
与 默认 的 time_format 匹配 的 值 。 
日 期 
与 默认 的 date_format 匹配 的 值 。 
日 期 时 间 


符合 ISO 8601 标准 的 任何 日 期 。 
如 果 以 上 类 型 均 不 匹配 ， 那 么 这 一 列 就 还 是 一 个 字符 串 向 量 。 


8.4.2 ”问题 

这 些 默认 设置 对 更 大 的 文件 并 不 是 一 直 有 效 的 。 以 下 是 两 个 主要 问题 。 

° 前 1000 行 可 能 是 一 种 特殊 情况 ，readr 猜测 出 的 类 型 不 足以 代表 整个 文件 。 例 如 ， 一 列 
双 精 度数 值 的 前 1000 行 可 能 都 是 整数 。 

。 列 中 可 能 含有 大 量 缺 失 值 。 如 果 前 1000 行 中 都 是 NA， 那么 readr 会 猜测 这 是 一 个 字符 
向 量 ， 但 你 其 实 想 将 这 一 列 解析 为 更 具体 的 值 。 


readr 中 包含 了 一 份 非常 有 挑战 性 的 CSV 文件 ， 该 文件 可 以 说 明 以 上 两 个 问题 。 


























challenge <- read_csv(readr_example("challenge.csv")) 
#> Parsed with column specification: 

#> cols( 

#> x = col_integer(), 

#> y = col_character() 


#> ) 
#> Warning: 1000 parsing failures. 
#> row col expected actual 


#> 1001 x no trailing characters .23837975086644292 


#> 1002 x no trailing characters .41167997173033655 
#> 1003 x no trailing characters .7460716762579978 
#> 1004 x no trailing characters .723450553836301 
#> 1005 x no trailing characters .614524137461558 
Aaser ana miea ee ee Sas a pa ease 


#> See problems(...) for more details. 
(注意 readr_example() 函数 的 用 法 ， 它 可 以 找到 包含 在 R 包 中 的 文件 的 路 径 。) 


以 上 的 输出 可 以 分 为 两 部 分 : 从 前 1000 行 中 猜测 出 的 列 类 型 与 前 5 条 解析 失败 记录 。 我 们 
总 是 应 该 使 用 problems() 国 数 明确 地 列 出 这 些 失败 记录 ， 以 便 更 加 深入 地 探究 其 中 的 问题 : 








problems(challenge) 

#> # A tibble: 1,000 x 4 

#> row col expected actual 
#> <int> <chr> <chr> <chr> 
#> 1 1001 x no trailing characters .23837975086644292 
#> 2 1002 x no trailing characters .41167997173033655 
#> 3 1003 x no trailing characters .7460716762579978 
#> 4 1004 x no trailing characters .723450553836301 
#> 5 1005 x no trailing characters .614524137461558 
#> 6 1006 x no trailing characters .473980569280684 


#> # ... with 994 more rows 


一 列 列 地 处 理 ， 直 至 解决 所 有 问题 ， 是 一 种 良好 策略 。 这 里 我 们 可 以 看 到 x 列 中 存在 大 量 
解析 问题 一 一 整数 后 面 有 拖 尾 字符 。 这 说 明 我 们 应 该 使 用 双 精 度 解析 函数 。 


为 了 解决 这 个 问题 ， 首 先 ， 复制 列 类 型 并 将 其 粘贴 到 初始 调用 中 : 


challenge <- read csv( 
readr_example("challenge.csv"), 
col_types = cols( 
x = col_integer(), 
y = col_character() 
) 
) 


接着 修改 x 列 的 类 型 ; 


challenge <- read_csv( 
readr_example("challenge.csv"), 
col_types = cols( 
x = col_double(), 
y = col_character() 
) 
) 
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这 样 就 解决 了 第 一 个 问题 ， 但 如 有 果 查 看 最 后 几 行 的 话 ， 你 会 发 现 保存 在 字符 向 量 中 的 其 实 
是 日 期 数据 : 


F 


tail(challenge) 

#> # A tibble: 6 x 2 
#> x y 
办 > <dbl> <chr> 


#> 1 0.805 2019-11-21 
#> 2 0.164 2018-03-29 
#> 3 0.472 2014-08-04 
#> 4 0.718 2015-08-16 
#> 5 0.270 2020-02-04 
#> 6 0.608 2019-01-06 


WE y 为 日 期 列 可 以 解决 这 个 问题 : 


challenge <- read_csv( 
readr_example("challenge.csv"), 
col_types = cols( 
x = col_double(), 
y = col_date() 
) 
) 
tail(challenge) 
#> # A tibble: 6 x 2 
#> x y 
办 > <dbl> <date> 
#> 1 0.805 2019-11-21 
#> 2 0.164 2018-03-29 
#> 3 0.472 2014-08-04 
#> 4 0.718 2015-08-16 
#> 5 0.270 2020-02-04 
#> 6 0.608 2019-01-06 


每 个 parse_xyz() 国 数 都 有 一 个 对 应 的 col_xyz() 函数 。 如 果 数 据 已 经 保存 在 R 的 字符 向 量 中 ， 
那么 你 可 以 使 用 parse_xyz(); 如 果 想 要 告诉 readr 如 何 加 载 数据 ， 则 应 该 使 用 col_xyz()。 

我 们 强烈 建议 你 总 是 提供 coL_types 参数 ， 从 readr 打印 出 的 输出 中 可 以 知道 它 的 值 。 这 
可 以 确保 数据 导入 脚本 的 一 致 性 ， 并 可 以 重复 使 用 。 如 果 不 提 供 这 个 参数 ， 而 是 依赖 猜测 
的 类 型 ， 那 么 当 数据 发 生变 化 时 ，readr 会 继续 读 入 数据 。 如 果 想 要 严格 解析 ， 可 以 使 用 
stop_for_problems() 函数 : 当 出 现任 何 解析 问题 时 ， 它 会 抛 出 一 个 错误 ， 并 终止 脚本 。 


8.4.3 ”其 他 策略 

我 们 再 介绍 其 他 几 种 有 助 于 解析 文件 的 通用 策略 。 

。 在 前 面 的 示例 中 ， 我 们 的 运气 太 差 了 : 如 果 比 默认 方式 再 多 检查 1 行 ， 我 们 就 能 一 跃 而 
就 ， 解 析 成 功 。 


chaLLenge2 <- read_csv( 
readr_example("challenge.csv"), 
guess_max = 1001 






































#> Parsed with column specification: 


#> cols( 

#> x = col_double(), 

#> y = col_date(format = "") 
办 > ) 

challenge2 

#> # A tibble: 2,000 x 2 

#> x y 

办 >  <dbl> <date> 

#> 1 404 <NA> 

#> 2 4172 <NA> 

#> 3 3004 <NA> 

#> 4 787 <NA> 

#> 5 37 <NA> 

#> 6 2332 <NA> 

#> # ... with 1,994 more rows 


。 有 时 如 果 将 所 有 列 都 作为 字符 向 量 读 和 人 的 话 ， 会 更 容易 诊断 出 问题 ; 


challenge2 <- read_csv(readr_example("challenge.csv"), 
col_types = cols(.default = col_character()) 


) 


这 种 方式 结合 type_convert() 国 数 使 用 时 特别 有 效 ， 后 者 可 以 在 数据 框 的 字符 列 上 应 
用 局 发 式 解析 过 程 : 
df <- tribble( 
~X， Syy 
U a, 
2. 2 32 y 
"3" | "3.56" 


#> # A tibble: 3 x 2 
#> x y 
#> <chr> <chr> 
#> 1 T 121 
#> 2 2 2:32 
#> 3 3 4.56 


# 注意 列 类 型 

type_convert(df) 

#> Parsed with column specification: 
#> cols( 

#> x = col intéġger(), 


#> y = col_double() 
办 > ) 

#> # À tibble: 3 x 2 
#> x y 

#> <int> <dbl> 

#> 1 # 121 


#> 2 2 2,32 
#> 3 3 4.56 


° 如 果 正 在 读 取 一 个 非常 大 的 文件 ， 那 么 你 应 该 将 n_max 设置 为 一 个 较 小 的 数 ， 比 如 10 000 
或 者 100 000。 这 可 以 让 你 在 解决 常见 问题 时 加 快 重复 试验 的 过 程 。 
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° 如 果 遇 到 严重 的 解析 问题 ， 有 时 使 用 read_Lines() 函数 按 行 读 入 字符 向 量 会 更 容易 ， 
甚至 可 以 使 用 read_file() 函数 读 入 一 个 长 度 为 1 的 字符 向 量 。 接 着 你 可 以 使 用 后 面 将 
学 到 的 字符 串 解析 技能 来 解析 各 种 各 样 的 数据 形式 。 


85 与 入 文件 


readr 还 提供 了 两 个 非常 有 用 的 国 数 ， 用 于 将 数据 写 回 到 磁盘 : write_csv() 和 write_ 
tsv()。 这 两 个 函数 输出 的 文件 能 够 顺利 读 取 的 概率 更 高 ， 因 为 : 


。 它们 总 是 使 用 UTF-8 对 字符 串 进行 编码 ; 
。 它们 使 用 ISO 8601 格式 来 保存 日 期 和 日 期 时 间 数 据 ， 以 便 这 些 数据 不 论 在 何 种 环境 下 
都 更 容易 解析 。 


如 果 想 要 将 CSV 文件 导 为 Excel 文件 ， 可 以 使 用 write_exceL_csv() 国 数 ， 该 国 数 会 在 文 
件 开 头 写 和 一 个 特殊 字符 ( 字 节 顺序 标记 )， 告 诉 Excel 这 个 文件 使 用 的 是 UTF-8 编码 。 


这 几 个 函数 中 最 重要 的 参数 是 x (要 保存 的 数据 框 ) 和 path (保存 文件 的 位 置 )。 还 可 以 使 
用 na 参数 设 定 如 何 写 入 缺失 值 ， 如 果 想 要 追加 到 现 有 的 文件 ， 需 要 设置 append 参数 : 


write_csv(challenge, "challenge.csv") 


注意 ， 当 保存 为 CSV 文件 时 ， 类 型 信息 就 丢失 了 : 


challenge 

#> # A tibble: 2,000 x 2 

#> x y 

办 > <dbl> <date> 

#> 1 404 <NA> 

#> 2 4172 <NA> 

#> 3 3004 <NA> 

#> 4 787 <NA> 

#> 5 37 <NA> 

#> 6 2332 <NA> 

#> # ... with 1,994 more rows 
write_csv(challenge, "challenge-2.csv") 
read_csv("challenge-2.csv") 
#> Parsed with column specification: 
#> cols( 

#> x = col_double(), 

#> y = col_character() 

H>) 

#> # A tibble: 2,000 x 2 

#> x y 

#> <dbl> <chr> 

#> 1 404 <NA> 

#> 2 4172 <NA> 

#> 3 3004 <NA> 

#> 4 787 <NA> 

#> 5 37 <NA> 

#> 6 2332 <NA> 

办 > # ... with 1,994 more rows 


这 使 得 CSV 文件 在 暂 存 临时 结果 时 有 些 不 可 靠 一 一 每 次 加 载 时 都 要 重建 列 类 型 。 以 下 是 











两 种 替代 方式 。 
° write_rds() 和 read_rds() 国 数 是 对 基础 国 数 readRDS() 和 saveRDS() 的 统一 包装 。 前 
者 可 以 将 数据 保存 为 R 自 定义 的 二 进 制 格式 ， 称 为 RDS 格式 : 


write_rds(challenge, "challenge.rds") 
read_rds("challenge.rds") 
#> # A tibble: 2,000 x 2 








#> x y 

办 >  <dbl> <date> 

#> 1 404 <NA> 

#> 2 4172 <NA> 

#> 3 3004 <NA> 

#> 4 787 <NA> 

#> 5 37  <NA> 

#> 6 2332 <NA> 

办 > # ... with 1,994 more rows 

° feather 包 实 现 了 一 种 快速 二 进 制 格式 ， 可 以 在 多 个 编程 语言 间 共 享 

library(feather) 


write_feather(challenge, "challenge.feather") 
read_feather("challenge.feather") 
#> # A tibble: 2,000 x 2 


#> x y 
#> <dbl> <date> 
#> 1 404 <NA> 
#> 2 4172 <NA> 
#> 3 3004 <NA> 
#> 4 787 <NA> 
#> 5 37 <NA> 
#> 6 2332 <NA> 
#> # ... with 1,994 more rows 


feather 要 比 RDS 速度 更 快 ， 而且 可 以 在 R 之 外 使 用 。RDS 支持 列表 列 (我 们 将 在 第 19 章 
中 介绍 ) feather 目前 还 不 行 。 


86 ”其 他 类 型 的 数据 


要 想 将 其 他 类 型 的 数据 导入 R 中 ， 我 们 建议 首先 从 下 列 的 tidyverse 包 开 始 。 它 们 当然 远 非 

完美 ， 但 确实 是 一 个 很 好 的 起 点 。 对 和 矩形 数据 来 说 : 

° haven 可 以 读 取 SPSS, Stata 和 SAS 文件 ; 

° readxl 可 以 读 取 Excel 文件 (.xls 和 .xlsx 均 可 )，; 

° 配合 专用 的 数据 库 后 端 程序 (如 RMySQL、RSQLite、RPostgreSQL 等 )，DBI 可 以 对 相 
应 数据 库 进行 SQL 查询 ， 并 返回 一 个 数据 框 。 


对 于 层次 数据 ， 可 以 使 用 jsonlite (由 JeroenOoms 开发 ) 读 取 JSON 串 ， 使 用 xml2 读 取 
XML 文件 。Jenny Bryan 在 https://jennybc.github.io/purrr-tutorial/ 中 提供 了 一 些 非常 好 的 示例 。 


对 于 其 他 的 文件 类 型 ， 可 以 学 习 一 下 RR 数据 导入 /导出 手册 (https:/cran.r-project.org/doc/ 
manuals/t-release/R-data.html)， 以 及 rio 包 (https://github.com/leeper/rio)。 


Rg 
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第 9 章 





使 用 dplyr 处 理 关 系数 据 


9.1 简介 
只 涉及 一 张 数据 表 的 数据 分 析 是 非常 罕见 的 。 通 常 来 说 ， 你 会 有 很 多 个 数据 表 ， 而 且 必 须 


综合 使 用 它们 才能 回答 你 所 感 兴趣 的 问题 。 存 在 于 多 个 表 中 的 这 种 数据 统称 为 关系 数据 ， 
因为 重要 的 是 数据 间 的 关系 ， 而 不 是 单个 数据 集 。 


关系 总 是 定义 于 两 张 表 之 间 。 其 他 所 有 关系 都 是 建立 在 这 种 简单 思想 之 上 : 三 张 或 更 多 表 
之 间 的 关系 总 是 可 以 用 每 两 个 表 之 间 关 系 表示 出 来 。 有 了 时 关系 涉及 的 两 个 表 其 至 就 是 同一 
张 ! 例如 ， 如 果 你 有 一 张 人 员 表 ， 那 么 其 中 某 个 人 与 其 父母 的 关系 就 是 这 种 情况 


要 想 处 理 关系 数据 ， 你 需要 能 够 在 两 张 表 之 间 进 行 的 操作 。 我 们 设计 了 三 类 操作 来 处 理 关 
。 合并 连接 : 向 数据 框 中 加 入 新 变量 ， 新 变量 的 值 是 另 一 个 数据 框 中 的 匹配 观测 。 

。 筛选 连接 : 根据 是 否 一 个 时 | am, 筛选 数据 框 中 的 观测 。 

。 集合 操作 : 将 观测 作为 集合 元 素来 处 理 。 

关系 数据 最 常见 于 关系 数据 库 管理 系统 (relational database management system, RDBMS), 
该 系统 几乎 吉 括 了 所 有 的 现代 数据 库 。 如 果 之 前 使 用 过 数据 库 ， 那 你 肯定 使 用 过 SQL。 如 
果 是 这 样 的 话 ， 你 会 发 现 本 章 中 的 很 多 概念 都 似曾相识 ， 尽 管 其 在 dplyr 中 的 表达 形式 略 
微 不 同 。 一 般 来 说 ，dplyr 要 比 SQL 更 容易 使 用 ， 因 为 前 者 是 专门 用 于 进行 数据 分 析 的 。 
在 进行 常用 的 数据 分 析 操 作 时 ，dplyr 非常 得 心 应 手 ， 反 之 ， 它 并 不 擅长 数据 分 析 中 不 常用 
的 那些 操作 。 


准备 工作 


我 们 使 用 dplyr 的 一 些 函 数 来 研究 一 下 nycflights13 中 的 关系 数据 ， 这 些 函 数 可 以 在 两 张 数 
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据 表 间 进行 操作 。 


library(tidyverse) 
library(nycflights13) 


9.2 nycflights13 


我 们 将 使 用 nycflights13 包 来 学 习 关 系数 据 。nycflights13 中 包含 了 与 flights 相关 的 4 个 
tibble， 我 们 已 经 在 第 3 章 中 使 用 过 flights 表 了 。 


。 airlines: 可 以 根据 航空 公司 的 缩写 码 查 到 公司 全 名 。 


airlines 
#> # A tibble: 16 x 2 
#> carrier name 
#> <chr> <chr> 
#> 1 9E Endeavor Air Inc. 
WS: AA American Airlines Inc. 
#Z> 3 AS Alaska Airlines Inc. 
办 > 4 B6 JetBlue Airways 
#> 5 DL Delta Air Lines Inc. 
#> 6 EV ExpressJet Airlines Inc. 
#> # ... with 10 more rows 

° airports: 给 出 了 每 个 机 场 的 信息 ， 通 过 faa 机 场 编码 进行 标识 。 
airports 
办 > # A tibble: 1,396 x 7 
#> faa name lat lon 
#> <chr> <Chr> <dbl> <dbl> 
#> 1 040 Lansdowne Airport 41.1 -80.6 
#> 2 06A Moton Field Municipal Airport 32.5 -85.7 
#> 3 06C Schaumburg Regional 42.0 -88.1 
#> 4 06N Randall Airport 41.4 -74.4 
#> 5 09J Jekyll Island Airport 31.1 -81.4 
#> 6 049 Elizabethton Municipal Airport 36.4 -82.2 
#> # ... with 1,390 more rows, and 3 more variables: 
#># alt <ints, tz <dbl>, dst <Ehrs 


。 planes: 给 出 了 每 架 飞 机 的 信息 ， 通 过 tailnum 进行 标识 。 


planes 

#> # A tibble: 3,322 x 9 

#> tailnum year type 

#> <chr> <int> <chr> 

#> 1 N10156 2004 Fixed wing multi engine 

#> 2 N102UWw 1998 Fixed wing multi engine 

#> 3 N103US 1999 Fixed wing multi engine 

#> 4 N104UW 1999 Fixed wing multi engine 

#> 5 N10575 2002 Fixed wing multi engine 

#> 6 N405UW 1999 Fixed wing multi engine 

#> # ... with 3,316 more rows, and 6 more variables: 
#> # manufacturer <chr>, model <chr>, engines <int>, 
#> # seats <int>, speed <int>, engine <chr> 
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e weather: 给 出 了 纽约 机 场 每 小 时 的 天 气 状况 。 


weather 

#> # A tibble: 26,130 x 15 

#> origin year month day hour temp dewp humid 
#> <chr> <dbl> <dbl> <int> <int> <dbl> <dbl> <dbl> 


#> 1 EWR 2013 1 1 0 37.0 21.9 54.0 

#> 2 EWR 2013 1 £ T 37.07. 219: 52.0 

#> 3 EWR 2013 1 1 2 37:9 21:9 52.1 

#> 4 EWR 2013 1 1 3 37.9 230 54.5. 

#> 5 EWR 2013 1 1 4 37.9 24.1 57.0 

#> 6 EWR 2013 1 1 6 39.0 26.1 59.4 

#> # ... with 2.612e+04 more rows, and 7 more variables: 
#> # wind dir <dbl>, wind speed <dbl>, wind gust <dbl>, 
#> # precip <dbl>, pressure <dbl>, visib <dbl>, 

办 > # time hour <dttm> 


展示 不 同 数 据 表 之 间 关系 的 一 种 方法 是 绘制 图 形 。 


flights weather 





airports 


planes 





这 个 图 有 点 让 人 眼花 练 乱 ， 但 跟 实际 工作 中 的 一 些 图 比 起 来 ， 可 以 说 是 相当 简洁 了 。 理 解 
这 种 图 的 关键 是 ， 记 住 每 种 关系 只 与 两 张 表 有 关 。 不 需要 乔 清楚 所 有 的 事情 ， 只 要 明白 你 
所 关心 的 表格 间 的 关系 即 可 。 

对 于 nycflights13 包 中 的 表 来 说 : 


。 flights 与 planes 通过 单 变量 tailnun 相连 ， 

。 flights 与 airlines 通过 变量 carrier 相连 ， 

e flights 5 airports 通过 两 种 方式 相连 (变量 origin 和 dest); 

e flights 5 weather 通过 变量 origin (位 置 ) 以 及 year .month、day FH hour (时 间 ) 相连 。 


练习 

(1) 假 设想 要 画 出 每 架 飞 机 从 起 点 到 终点 的 (近似 ) 飞行 路 线 ， 需 要 哪些 变量 ? 需要 组 合 哪 
些 表 格 ? 

(2) 我 们 忘记 画 出 weather 和 airports 之 间 的 关系 了 ， 它 们 之 间 的 关系 是 什么 ”如 何在 图 
中 表示 ? 











(3) weather 表 中 仅 包 含 起 点 机 场 (纽约 ) 的 信息 。 如 果 它 包含 美国 所 有 机 场 的 天 气 记 录 ， 
那么 应 如 何 定 义 其 与 flights 之 间 的 关系 ? 


(4) 我 们 知道 每 年 的 有 些 日 子 是 “特殊 的 ”， 这 些 日 子 中 乘 飞 机 的 人 比 平 时 要 少 。 如 何 将 这 
种 数据 表示 为 一 个 数据 框 ? 这 个 表 的 主键 是 什么 ?》 它 与 现 有 表格 之 间 的 关系 是 怎样 的 ? 


9.3 键 


用 于 连接 每 对 数据 表 的 变量 称 为 键 。 键 是 能 唯一 标识 观测 的 变量 (或 变量 集合 ) 。 简 单 情 
况 下 ， 单 个 变量 就 足以 标识 一 个 观测 。 例 如 ， 每 架 飞 机 都 可 以 由 taittnum 唯一 标识 。 其 
他 情况 可 能 需要 多 个 变量 。 例 如 ， 要 想 标识 weather 中 的 观测 ， 你 需要 5 个 变量 : year, 
month. day. hour 和 origins 


键 的 类 型 有 两 种 。 


。 主键 : 唯一 标识 其 所 在 数据 表 中 的 观测 。 例 如 ，planes$tailnun 是 一 个 主键 ， 因 为 其 可 
以 唯一 标识 planes 表 中 的 每 架 飞 机 。 

。 外 键 : 唯一 标识 另 一 个 数据 表 中 的 观测 。 例 如 ，fLightsstatLnum 是 一 个 外 键 ， 因 为 其 

出 现在 flights 表 中 ， 并 可 以 将 每 次 航班 与 唯一 一 架 飞 机 匹配 。 


一 个 变量 既 可 以 是 主键 ， 也 可 以 是 外 键 。 例 如 ，origin 是 weather 表 主 键 的 一 部 分 ， 同 时 
也 是 airports 表 的 外 键 。 


一 旦 识别 出 表 的 主键 ， 最 好 验证 一 下 ， 看 看 它们 能 否 真正 唯一 标识 每 个 观测 。 一 种 验证 方 
法 是 对 主键 进行 count() 操作 ， 然 后 查看 是 否 有 nm 大 于 1 的 记录 : 


planes %>% 
count(tailnum) %>% 
filter(n > 1) 
办 > # A tibble: 0 x 2 
办 > # ... with 2 variables: tailnum <chr>, n <int> 
weather %>% 
count(year, month, day, hour, origin) %>% 
filter(n > 1) 
#> Source: local data frame [0 x 6] 
#> Groups: year, month, day, hour [0] 






































#> # ... with 6 variables: year <dbl>, month <dbl>, day <int>, 
#> # hour <int>, origin <chr>, n <int> 


有 时 数据 表 没 有 明确 的 主键 : 每 行 都 是 一 个 观测 ， 但 没有 一 个 变量 组 合 能 够 明确 地 标识 
它 。 例 如 ，flights 表 中 的 主键 是 什么 ?你 可 能 认为 是 日 期 加 航班 号 或 者 是 日 期 加 机 尾 编 
号 ， 但 这 两 种 组 合 都 不 是 唯一 标识 : 


flights %>% 
count(year, month, day, flight) %>% 
fulter(n > 1) 
#> Source: local data frame [29,768 x 5] 
#> Groups: year, month, day [365] 
#> 
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#> year month day flight n 
#>  <int> <int> <int> <int> <int> 


#> 1 2013 1 T í 2 
#> 2 2013 1 f 3 2 
#> 3 2013 1 a 4 2 
#> 4 2013 1 1 11 3 
#> 5 2013 1 T 15. 2 
#> 2013 1 T 21 2 
#> # ... with 2.976e+04 more rows 


flights %>% 
count(year, month, day, tailnum) %>% 
filter(n > 1) 
#> Source: local data frame [64,928 x 5] 
#> Groups: year, month, day [365] 


#> 

#> year month day tailnum n 
#>  “<¿ht> cints <ints <ëhr> <ints 
#> 1 2013 1 1 NOEGMQ 2 
#> 2 2013 1 1 N11189 2 
#> 3 2013 1 1 N11536 2 
#> 4 2013 1 1 N11544 3 
#> 5 2013 1 1 N11551 2 
#> 6 2013 1 1 N12540 2 
#> # ... with 6.492e+04 more rows 





当 开始 处 理 这 份 数据 时 ， 我 们 天 真 地 假设 了 每 个 航班 号 每 天 只 用 一 次 ， 因 为 这 样 就 非常 
容易 与 某 个 特定 航班 来 交流 问题 。 但 很 遗憾 ， 真 实情 况 并 不 是 这 样 的 。 如 果 一 张 表 没有 
主键 ， 有 时 就 需要 使 用 mutate() 函数 和 row_number() 函数 为 表 加 上 一 个 主键 。 这 样 一 来 ， 
如 果 你 完成 了 一 些 筷 选 工 作 ， 并 想 要 使 用 原始 数据 检查 的 话 ， 就 可 以 更 容易 地 匹配 观测 。 
这 种 主键 称 为 代理 键 。 

主键 与 另 一 张 表 中 与 之 对 应 的 外 键 可 以 构成 关系 。 关 系 通常 是 一 对 多 的 。 例 如 ， 每 个 航班 
只 有 一 架 飞 机 ， 但 每 架 飞 机 可 以 飞 多 个 航班 。 在 另 一 些 数据 中 ， 你 有 时 还 会 遇 到 一 对 一 的 
关系 。 你 可 以 将 这 种 关系 看 作 一 对 多 关系 的 特殊 情况 。 你 可 以 使 用 多 对 一 关系 加 上 一 对 多 
关系 来 构造 多 对 多 关系 。 例 如 ， 在 这 份 数 据 中 ， 航 空 公司 与 机 场 之 间 存 在 着 多 对 多 关系 : 
每 个 航空 公司 可 以 使 用 多 个 机 场 ， 每 个 机 场 可 以 服务 多 个 航空 公司 。 


练习 
(1) 向 flights 添加 一 个 代理 键 。 
(2) 找 出 以 下 各 数据 集中 的 键 。 


a. Lahman: :Batting 








b. babynames: :babynames 
c. nasaweather : :atmos 
d. fueleconomy: :vehicles 
e. ggplot2: :diamonds 


(你 可 能 需要 安装 一 些 R 包 ， 并 阅读 一 些 文档 。) 








(3) 画图 说 明 Lahman 包 中 的 Batting, Master 和 Salaries 表 之 间 的 关系 。 画 另 一 张 


HH Master. Managers 和 AwardsManagers 表 之 间 的 关系 。 


应 该 如 何 描 绘 Batting、Pitching 和 Fielding 表 之 间 的 关系 ? 


94 合并 连接 


本 市 将 介绍 用 于 组 合 两 个 表格 的 第 一 种 工 


R. 


FN 





即 合并 连接 。 合 并 连接 可 以 将 两 个 表格 中 的 


变量 组 合 起 来 ， 它 先 通过 两 个 表格 的 键 匹配 观测 ， 然 后 将 一 个 表格 中 的 变量 复制 到 另 一 个 


表格 中 。 


和 mutate() 函数 一 样 ， 连 接 函 数 也 会 将 变量 添加 在 表格 的 右 侧 ， 


了 很 多 变量 ， 那 么 新 变量 就 不 会 显示 出 来 。 为 了 解决 这 个 问题 ， 我 们 建立 一 个 简化 的 数据 


集 ， 以 便 更 易 看 到 示例 数据 集中 发 生 的 变化 : 


flights2 <- flights %>% 








select(year:day, hour, origin, dest, tailnum, carrier) 


flights2 

办 > # A tibble: 336,776 x 8 
办 > year month 
#> 

#> 1 2013 1 
#> 2 2013 1 
#> 3 2013 J 
#> 4 2013 1 
#> 5 2013 1 
#> 6 2013 了 
#> # 


day hour origin 
<int> <int> <int> <dbl> 


F a a 


Qu 


ww 


dest 


<chr> <chr> 


EWR 
LGA 
JFK 
JFK 
LGA 
EWR 


. with 3.368e+05 more rows 

















IAH 
IAH 
MIA 
BQN 
ATL 
ORD 


tailnum carrier 


<chr> 
N14228 
N24211 
N619AA 
N804JB 
N668DN 
N39463 


<chr> 
UA 


( 记 住 ， 如 果 使 用 的 是 RStudio， 你 还 可 以 使 用 view() 来 解决 这 个 问题 。) 
假设 想 要 将 航空 公司 的 全 名 加 入 flights: 数据 集 ， 你 可 以 通过 left_join() 函数 组 合 





airlines 和 flights2 数据 框 ， 


flights2 %>% 


select(-origin, -dest) %>% 


left_join(airlines, by = "carrier") 


day hour 


mwmwmwmwm 


#> # A tibble: 336,776 x 7 
#> year month 

#> <ints tnts <int> <dbl> 
#> 1 2013 1 f 

#> 2 2013 1 sl 

#> 3 2013 1 1 

#> 4 2013 T 1 

#> 5 2013 1 f 

#> 6 2013 1 zl 

#> # ... with 3.368e+05 more 
#> # name <chr> 


将 航空 公司 数据 连接 到 flights2 的 结果 产生 了 一 个 新 变 


tailnum carrier 
<chr> 


<chr> 
N14228 
N24211 
N619AA 
N804JB 
N668DN 
N39463 


UA 
UA 
AA 
B6 
DL 
UA 


rows, and 1 more variable: 





=. 
Æ: 


因此 如 果 表 格 中 已 经 有 


name。 这 就 是 我 们 将 这 种 连接 


称 为 合并 连接 的 原因 。 对 于 这 个 示例 ， 我 们 可 以 通过 mutate() 函数 和 R 的 取 子 集 操作 达 
到 同样 的 效果 : 
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flights2 %>% 
select(-origin, -dest) %>% 
mutate(name = airlines$name[match(carrier, airlines$carrier)]) 
#> # À tibble: 336,776 * 7 
#> year month day hour tailnum carrier 
#> <¿ht> <int> <ints <dbl> <ehrs  <e€hr> 


#> 1 2013 1 í 5 N14228 UA 
#> 2 2013 1 5 N24211 UA 
#> 3 2013 1 £ 5 N619AA AA 
#> 4 2013 í i 5 N804JB B6 
#> 5 2013 1 1 6 N668DN DL 
#> 6 2013 1 1 5 N39463 UA 
#> # ... with 3.368e+05 more rows, and 1 more variable: 


#> # name <chr> 
但 这 种 方式 很 难 推 广 到 需要 匹配 多 个 变量 的 情况 ， 而 且 需 要 仔细 阅读 代码 才能 搞 清楚 操作 
目的 。 
下 一 市 将 详细 阐释 合并 连接 的 工作 原理 。 首 先 ， 我 们 将 介绍 连接 的 一 种 可 视 化 表示 。 接 着 
使 用 这 种 可 视 化 表示 来 解释 4 种 合并 连接 : 1 种 内 连接 和 3 种 外 连接 。 在 处 理 实际 数据 时 ， 
键 并 不 能 总 是 唯一 地 标识 观测 ， 因 此 我 们 接 下 来 将 讨论 如 何 处 理 不 能 唯一 匹配 的 情况 。 最 
后 ， 我 们 将 介绍 如 何 通 知 dplyr 哪个 变量 是 给 定 连接 的 键 。 


9.4.1 理解 连接 
为 了 帮助 你 掌握 连接 的 工作 原理 ， 我 们 将 介绍 用 图 形 来 表示 连接 的 一 种 方法 : 

















x 
1 [x1 | 


22] 2 [yz 


x <- tribble( 
key, ~val_x, 


y <- tribble( 
~key, ~val_y, 

$, "Ws 

2, "y2"; 

二 


有 颜色 的 列表 示 作为 “ 键 ”的 变量 : 它们 用 于 在 表 间 匹配 行 。 灰 色 列 表示 “ 值 ” 列 ， 是 与 
键 对 应 的 值 。 在 以 下 的 示例 中 ， 虽 然 键 和 值 都 是 一 个 变量 ， 但 非常 容易 推广 到 多 个 键 变量 
和 多 个 值 变量 的 情况 。 

连接 是 将 x 中 每 行 连接 到 y 中 0 行 、 一 行 或 多 行 的 一 种 方法 。 下 图 表示 出 了 所 有 可 能 的 匹 
配 ， 匹 配 就 是 两 行 之 间 的 交集 。 














Q 
> 


(如 果 观 察 得 足够 仔细 ， 那 么 你 就 会 发 现 我 们 交换 了 x 中 的 键 列 和 值 列 的 顺序 。 这 只 是 为 
了 强调 连接 是 按照 键 来 进行 匹配 的 。 实 际 上 键 和 值 的 对 应 关系 没有 改变 。) 


匹配 在 实际 的 连接 操作 中 是 用 圆 点 表示 的 。 圆 点 的 数量 = 匹配 的 数量 = 结果 中 行 的 数量 。 


9.4.2 ”内 连接 


内 连接 是 最 简单 的 一 种 连接 。 只 要 两 个 观测 的 键 是 相等 的 ， 内 连接 就 可 以 匹配 它们 。 


> EE 


(确切 地 说 ， 这 是 一 种 内 部 等 值 连接 ， 因 为 在 匹配 键 时 使 用 的 是 等 值 运算 符 。 因 为 多 数 连 

接 都 是 等 值 连接 ， 所 以 我 们 通常 省 略 这 种 说 明 。，) 

内 连接 的 结果 是 一 个 新 数据 框 ， 其 中 包含 键 、x 值 和 y 值 。 我 们 使 用 by 参数 告诉 dplyr 哪 

个 变量 是 键 ， 
x %>% 


inner_join(y, by = "key") 
#> # A tibble: 2 * 3 














#> key val_x val_y 
#> <dbl> <chr> <chr> 
#> 1 I XI y1 


#> 2 2 X2 y2 


内 连接 最 重要 的 性 质 是 ， 没 有 匹配 的 行 不 会 包含 在 结果 中 。 这 意味 着 内 连接 一 般 不 适合 在 
分 析 中 使 用 ， 因 为 太 容易 丢失 观测 了 。 


9.4.3 ”外 连接 

内 连接 保留 同时 存在 于 两 个 表 中 的 观测 ， 外 连接 则 保留 至 少 存在 于 一 个 表 中 的 观测 。 外 连 
接 有 3 种 类 型 。 

。 左 连接 : 保留 x 中 的 所 有 观测 。 

。 BER.: 保留 y 中 的 所 有 观测 

。 全 连接 : 保留 x # y 中 的 所 有 观测 。 

















使 用 dplyr 处 理 关 系数 据 | 121 




















这 些 连接 会 向 每 个 表 中 添加 额外 的 “虚拟 ”观测 ， 这 个 观测 拥有 总 是 匹配 的 键 (如 果 没 有 
他 键 可 匹配 的 话 ) ， 其 值 则 用 NA 来 填充 。 
图 形 表示 如 下 所 示 。 


Sik 





Left A 


Full A 














最 常用 的 连接 是 左 连接 : 只 要 想 从 另 一 张 表 中 添加 数据 ， 就 可 以 使 用 左 连接 ， 因 为 它 会 保 
留 原 表 中 的 所 有 观测 ， 即 使 它 没 有 匹配 。 左 连接 应 该 是 你 的 默认 选择 ， 除 非 有 足够 充分 的 
理由 选择 其 他 的 连接 方式 。 


表示 不 同类 型 连接 的 另 一 种 方式 是 使 用 维 思 


图 。 
(O) inner_join(x, y) (O) left_join(x, y) 











full_join(x, y) right_join(x, y) 


但 是 这 并 不 是 一 种 非常 好 的 表示 方式 。 虽 然 可 以 说 明 哪 种 连接 会 保留 哪个 表 中 的 观测 ， 但 
已 具有 非常 明显 的 局 限 性 : 当 键 不 能 唯一 标识 观测 时 ， 维 恩 图 无 法 表示 这 种 情况 。 


94.4 ”重复 键 

至 今 为 止 ， 所 有 图 都 假设 键 具 有 唯一 性 。 但 情况 并 非 总 是 如 此 。 本 节 说 明了 当 键 不 唯一 时 

将 会 发 生 的 两 种 情况 。 

。 一 张 表 中 具有 重复 键 。 通 常 来 说 ， 当 存在 一 对 多 关系 时 ， 如 果 你 想 要 向 表 中 添加 额外 信 
息 ， 就 会 出 现 这 种 情况 。 


























注意 ， 我 们 稍稍 调整 了 键 列 在 结果 中 的 位 置 ， 这 样 可 以 反映 出 这 个 键 是 y 的 主键 、x 的 





外 键 : 


x <- tribble( 
~key, ~val_x, 
N o 
2, R2" 
23", 
4. 4" 


y <- tribble( 
~key, ~val_y, 
1, "y1", 
2, "y2" 
) 
left_join(x, y, by = "key") 
#> # A tibble: 4 x 3 


#> key val_x val_y 
#> <dbl> <chr> <chr> 
#> 1 1 x1 y1 
#> 2 2 X2 y2 
#> 3 2 x3 y2 
#> 4 1 X4 y1 





两 张 表 中 都 有 重复 键 。 这 通常 意味 着 


了 错误 ， 因 为 键 在 任意 一 张 表 中 都 不 能 唯一 标 


识 观测 。 当 连接 这 样 的 重复 键 时 ， 你 会 得 到 所 有 可 能 的 组 合 ， 即 第 卡 儿 积 : 





x <- tribble( 
~key, ~val_x, 
Ts 
2 
2, "R3", 
3, "Xd 
J 
y <- tribble( 
~key, ~val_y, 
1, yr, 
2 MO S 
2, "Ya, 





使 用 dplyr 处 理 关系 数据 | 123 


) 


3, "y4" 


left_join(x, y, by = "key") 


# 


S a + (Ó N a 


A tibble: 6 x 3 
key val_x val_y 
<dbl> <chr> <chr> 


1 x1 yi 
2 X2 y2 
2 x2 y3 
2 x3 y2 
2 x3 y3 
3 x4 y4 


9.4.5 ”定义 键 列 


A 


今 为 止 ， 两 张 表 都 是 通过 一 个 单 变量 来 连接 的 ， 而 且 这 个 变量 在 两 张 表 中 具有 同样 的 名 
这 种 限制 条 件 是 通过 by = "key" 来 实现 的 。 你 还 可 以 对 by 设置 其 他 值 ， 以 另外 的 方 





式 来 连接 表 。 


。 默认 值 by = NULL。 这 会 使 用 存在 于 两 个 表 中 的 所 有 变量 ,这 种 方式 称 为 自然 连接 。 例 如 ， 
匹配 航班 表 和 天 气 表 时 使 用 的 就 是 其 公共 变量 : year. month. day. hour 和 origins 


flights2 %>% 


left_join(weather) 


#> Joining, by = c("year", "month", "day", "hour", 


# 


S£ $k $ Sk Ga À Ó N Fa 


k: 


“Or ug nt) 

A tibble: 336,776 * 18 

year month day hour origin dest tailnum 
<dbl> <dbl> <int> <dbl> <chr> <chr> <chr> 


2013 1 1 5 EWR IAH N14228 
2013 1 1 5 LGA IAH N24211 
2013 1 1 5 JFK MIA N619AA 
2013 3 1 3 JFK BQN N804JB 
2013 J 1 6 LGA ATL N668DN 
2013 1 了 5 EWR ORD N39463 


. with 3.368e+05 more rows, and 11 more variables: 
carrier <chr>, temp <dbl>, dewp <dbl>, 
humid <dbl>, wind_dir <dbl>, wind_speed <dbl>, 
wind_gust <dbl>, precip <dbl>, pressure <dbl>, 
visib <dbl>, time_hour <dttm> 


。 字符 向量 by = "x"。 这 种 方式 与 自然 连接 很 相似 ， 但 只 使 用 某 些 公共 变量 。 例 如 ， 
flights 和 planes 表 中 都 有 year 变量 ， 但 是 它们 的 意义 不 同 ， 因 此 我 们 只 通过 tailnum 
进行 连接 : 


flights2 %>% 


# 





left_join(planes, by = "tailnum") 


A tibbles 336,776 * 16 
year.x month day hour origin dest tailnum 
<int> <int> <int> <dbl> <chr> <chr> <chr> 


2013 1 1 5 EWR IAH N14228 
2013 1 1 5 LGA IAH N24211 
2013 1 1 5 JFK MIA N619AA 





#> 4 2013 
#> 5 2013 
#> 6 2013 
#> # . 
#> # 
#> # 
#> # 


1 5 JFK BQN N804JB 
1 6 LGA ATL N668DN 
1 5 EWR ORD N39463 


. with 3.368e+05 more rows, and 9 more variables: 
carrier <chr>, year.y <int>, type <chr>, 
manufacturer <chr>, model <chr>, engines <int>, 
seats <int>, 


speed <int>, engine <chr> 


注意 ， G c G S 
一 个 后 级 ， 以 消除 歧义 。 


° 命名 字符 向 量 by = c("a" = "b")。 这 种 方式 会 匹配 x 表 中 的 a 变量 和 y 表 中 的 b 变量 。 
输出 结果 中 使 用 的 是 x 表 中 的 变量 。 





例如 ， 如 果 想 要 画 出 








一 幅 地 图 ， 那 么 我 们 就 需要 在 航班 数据 中 加 入 机 场 数据 ， 后 者 包含 


了 每 个 机 场 的 位 置 (lat 和 Lon)。 因 为 每 次 航班 都 有 起 点 机 场 和 终点 机 场 ， 所 以 需要 指 
定 使 用 哪个 机 场 进行 连接 : 


flights2 %>% 


left_ join(airports, c("dest" = "faa")) 
#> # A tibble: 336,776 x 14 
#> year month 
#> <ints <int> <int> <dbl> <chr> <chr> <chr> 


#> 1 2013 1 
#> 2 2013 1 
#> 3 2013 i 
#> 4 2013 1 
#> 5 2013 1 
#> 6 2013 1 
#> # 

#> # 

#> # alt <int>, 


flights2 %>% 


day hour origin dest tailnum 


f $: EWR IAH N14228 
1 5 LGA IAH N24211 
1 S JFK MIA N619AA 
1 5 JFK BQN N804JB 
1 6 LGA ATL N668DN 
1 5 EWR ORD N39463 


. with 3.368e+05 more rows, and 7 more variables: 
carrier <chr>, name <chr>, lat <dbl>, lon <dbl>, 
tz <dbl>, dst <chr> 


left_join(airports, c("origin" = "faa")) 
#> # A tibble: 336,776 x 14 
#> year month 
#> <int> <int> <int> <dbl> <chr> <chr> <chr> 


#> 1 2013 

#> 2 2013 

#> 3 2013 

#> 4 2013 

#> 5 2013 

#> 6 2013 

#> # 

#> # 

#> # alt <int. 


9.4.6 ”练习 


J 


F a a a a. 


>, 


day hour origin dest tailnum 


1 5 EWR IAH N14228 
1 5 LGA IAH N24211 
1 S JFK MIA N619AA 
T 5 JFK BQN N804JB 
f 6 LGA ATL N668DN 
1 5 EWR ORD N39463 


. with 3.368e+05 more rows, and 7 more variables: 
carrier <chr>, name <chr>, lat <dbl>, lon <dbl>, 
tz <dbl>, dst <chr> 


(1) 计算 出 每 个 目的 地 的 平均 延误 时 间 ， 然 后 与 airports 数据 框 连 接 ， 从 而 展示 出 延误 的 
空间 分 布 。 以 下 是 画 出 美国 地 图 的 一 种 简单 方法 。 
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airports %>% 
semi_join(flights, c("faa" = "dest")) %>% 
ggplot(aes(lon, lat)) + 
borders("state") + 
geom_point() + 
coord_quickmap() 


( 别 担心 不 理解 semi_joiin() 的 意义 ， 下 一 节 就 会 对 其 进行 介绍 。) 
你 可 以 使 用 数据 点 的 size 或 color 属性 来 表示 每 个 机 场 的 平均 延误 时 间 。 

(2) 将 起 点 机 场 和 终点 机 场 的 位 置信 息 ( 即 lat 和 lon) 添加 到 flights 中 。 

(3) 飞 机 的 机 龄 和 延误 时 间 有 关系 吗 ? 

(4) 什么 样 的 天 气 状况 更 容易 出 现 延误 ? 

(5)2013 年 6 月 13 日 发 生 了 什么 情况 ?展示 出 这 天 延误 时 间 的 空间 模式 ， 并 使 用 Google 说 
明 一 下 这 天 的 天 气 状况 。 


9.4.7 ”其 他 实现 方式 
base: :merge() 国 数 可 以 实现 所 有 4 种 合并 连接 操作 。 


dplyr merge 


inner_join(x, y) merge(x, y) 

left_join(x, y) merge(x, y, all.x = TRUE) 

right_join(x, y) merge(x, y, all.y = TRUE) 

full_join(x, y) merge(x, y, all.x = TRUE, all.y = TRUE) 


dplyr 连接 操作 的 优点 是 ， 可 以 更 加 清晰 地 表达 出 代码 的 意图 : 不 同 连 接 间 的 区 别 确实 非常 
重要 ， 但 隐藏 在 merge() 函数 的 参数 中 了 。dplyr 连接 操作 的 速度 明显 更 快 ， 而 且 不 会 弄 乱 
行 的 顺序 。 


因为 SQL 是 dplyr 连接 操作 的 灵感 来 源 ， 所 以 二 者 之 间 的 转换 非常 简单 明了 。 





dplyr SQL 

inner_join(x, y, by = "z") SELECT * FROM x INNER JOIN y USING (z) 
left_join(x, y, by = "z") SELECT * FROM x LEFT OUTER JOIN y USING (z) 
right_join(x, y, by = "z") SELECT * FROM x RIGHT OUTER JOIN y USING (z) 
full jóun(x; y, by = "z", SELECT * FROM x FULL OUTER JOIN y USING (z) 


注意 ，"INNER" 和 "OUTER" 是 可 选 的 ， 经 常 省 略 。 


在 表 间 连接 不 同 变量 (ZH inner_join(x, y, by = c("a" = "b"))) 时 ，SQL 的 语法 与 以 上 
有 些 区 别 : SELECT * FROM x INNER JOIN y ON x.a = y.b。 从 这 种 语法 可 以 看 出 ， 与 dplyr 
相 比 ，SQL 支持 的 连接 类 型 更 广泛 ， 因 为 SQL 可 以 使 用 除 相 等 关系 外 的 其 他 逻辑 关系 来 
连接 两 个 表 (有 了 时 这 称 为 非 等 值 连接 )。 











95 “筛选 连接 

筛选 连接 匹配 观测 的 方式 与 合并 连接 相同 ， 但 前 者 影响 的 是 观测 ， 而 不 是 
有 两 种 类 型 。 

° Semi_join(x, y): 保留 x 表 中 与 y 表 中 的 观测 相 匹 配 的 所 有 观测 。 

° anti_join(x, y): 丢弃 x 表 中 与 y 表 中 的 观测 相 匹 配 的 所 有 观测 。 

对 数据 表 进 行 第 选 或 摘要 统计 后 ， 如 果 想 要 使 用 表 中 原来 的 行 来 匹配 饰 选 或 摘要 结果 ， 那 
么 半 连 接 是 非常 有 用 的 。 例 如 ， 假 设 你 已 经 找 出 了 最 受 欢迎 的 前 10 个 目的 地 : 


top_dest <- flights %>% 
count(dest, sort = TRUE) %>% 





= 
El 
=š 
ëE 
ist 
s 




















head(10) 
top_dest 
#> # A tibble: 10 x 2 
#> dest n 
#> <chr> <int> 
#> 1 ORD 17283 
#> 2 ATL 17215 
#> 3 LAX 16174 
#> 4 BOS 15508 
#> 5 MCO 14082 
#> 6 CLT 14064 
#> # ... with 4 more rows 


Buih KEE H ñJHBBJ a uB, PREA A CHEA h 6 : 


flights %>% 
filter(dest %in% top_destsdest) 
办 > # A tibble: 141,145 x 19 
#> year month day dep_time sched dep time dep_delay 


#> <int> <int> <int> <iis <int> <dbl> 

#> 1 2013 1 T 542 540 2 

#> 2 2013 1 1 554 600 -6 

#> 3 2013 1 I 554 558 -4 

#> 4 2013 1 1 555 600 -5 

#> 5 2013 1 I 557 600 -3 

#> 6 2013 T 1 558 600 -2 

#> # ... with 1.411e+05 more rows, and 12 more variables: 

#> # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tailnum <chr>; origin <chr>, 
办 > # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm> 





但 这 种 方法 很 难 扩展 到 多 个 变量 。 例 如 ， 假 设 已 经 找 出 了 平均 延误 时 间 最 长 的 10 天， 那么 
你 应 该 如 何 使 用 year、month 和 day FREIE, ARETE flights 中 找 出 这 10 天 的 观测 ? 


此 时 你 应 该 使 用 半 连 接 ， 它 可 以 像 合 并 连接 一 样 连接 两 个 表 ， 但 不 添加 新 列 ， 而 是 保留 x 
表 中 那些 可 以 匹配 y 表 的 行 : 


flights %>% 
semi_join(top_dest) 

#> Joining, by = "dest" 

#> # A tibble: 141,145 x 19 
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> year month day dep_time sched dep time dep_delay 





办 > <int> <int> <int> <int> <int> <dbl> 
#> 1 2013 1 1 554 558 -4 
#> 2 2013 1 1 558 600 -2 
#> 3 2013 1 1 608 600 8 
#> 4 2013 1 1 629 630 -1 
#> 5 2013 1 1 656 700 -4 
#> 6 2013 1 1 709 700 9 
#> # ... with 1.411e+05 more rows, and 13 more variables: 
#> # arr_time <int>, sched arr_time <int>, arr_delay <dbl>, 
#> # carrier <chr>, flight <int>, tailnum <chr>, origin <chr>, 
#> # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, 
#> # minute <dbl>, time_hour <dttm> 
半 连 接 的 图 形 表示 如 下 所 示 。 














重要 的 是 存在 匹配 ， 匹 配 了 哪 条 观测 则 无 关 紧要 。 这 说 明 筛 选 连接 不 会 像 合并 连接 那样 造 
成 重复 的 行 。 








半 连 接 的 逆 操 作 是 反 连 接 。 反 连接 保留 x 表 中 那些 没有 匹配 y 表 的 行 。 





反 连 接 可 以 用 于 诊断 连接 中 的 不 匹配 。 例 如 ， 在 连接 flights 和 planes 时 ， 你 可 能 想 知 道 
flights 中 是 否 有 很 多 行 在 planes 中 没有 匹配 记录 : 
flights %>% 
anti_join(planes, by = "tailnum") %>% 


count(tailnum, sort = TRUE) 
#> # A tibble: 722 x 2 





#>  tailnum n 
#> <chr> <int> 
#> 1 <NA> 2512 
#> 2 N725MQ 575 
#> 3 N722MQ 513 
#> 4 N723MQ 507 
#> 5 N713MQ 483 
#> 6 N735MQ 396 
#> # ... with 716 more rows 
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练习 


(1) 如 果 一 条 航班 信息 的 tailnun 是 缺失 值 ， 这 说 明 什 么 ”如果 机 尾 编号 在 planes 中 没有 
匹配 的 记录 ， 一般 是 什么 情况 ? (提示 : 有 一 个 变量 可 以 解释 约 90% 的 这 种 情况 。) 


(2) 对 航班 信息 进行 筛选 ， 只 保留 至 少 有 100 次 飞行 记录 的 飞机 的 航班 信息 。 
(3) 使 用 fueLeconomy: :vehicles 和 fueLeconomy: :common 找 出 那些 用 于 最 常用 模型 的 记录 。 


(4) 找 出 这 一 整 年 中 航班 延误 最 严重 的 48 小 时 。 与 weather 数据 互相 参照 ， 你 能 找 出 某 种 
模式 吗 ? 


























(5) 你 能 说 出 anti_join(flights, airports, by = c("dest" = "faa")) 这 条 语句 的 意义 吗 ? 
anti_join(airports, flights, by = c("faa" = "dest")) 这 条 语句 的 意义 呢 ? 





(9) 或 许 你 认为 飞机 和 航空 公司 之 间 存在 着 某 种 隐 仿 关系， 因为 每 架 飞 机 都 属于 一 个 航空 公 
司 。 使 用 你 在 前 面 章节 中 学 到 的 工具 来 确认 或 否定 这 个 假设 。 


96 连接 中 的 问题 


因为 本 章 中 所 用 的 数据 已 经 整理 过 了 ， 所 以 使 用 时 基本 不 会 出 现 问题 。 在 处 理 自 己 的 数据 
时 ， 感 觉 可 不 见得 会 有 这 么 好 。 为 了 在 使 用 自己 的 数据 时 可 以 顺畅 地 进行 各 种 连接 ， 你 需 
要 注意 以 下 几 点 。 


(1) 首先 ， 需 要 找 出 每 个 表 中 可 以 作为 主键 的 变量 。 一 般 应 该 基于 对 数据 的 理解 来 确定 主 
键 ， 而 不 是 赁 经 验 寻找 能 作为 唯一 标识 符 的 变量 组 合 。 如 果 在 确定 主键 时 根本 没有 考虑 
过 甚 意义 ， 那 么 就 可 能 步 入 歧途， 虽然 可 以 找 出 具有 唯一 性 的 变量 组 合 ， 但 它 与 数据 间 
的 关系 却 可 能 不 是 真实 的 。 


例如 ， 经 度 和 纬度 虽然 能 够 唯一 标识 每 个 机 场 ， 但 却 不 是 良好 的 标识 符 ! 


airports %>% count(alt, lon) %>% filter(n > 1) 

#> Source: local data frame [0 x 3] 

#> Groups: alt [0] 

#> 

#> # ... with 3 variables: alt <int>, lon <dbl>, n <int> 


(2) 确保 主键 中 的 每 个 变量 都 没有 缺失 值 。 如 果 有 缺失 值 ， 那 么 这 个 变量 就 不 能 标识 观测 ! 
(3) 检查 外 键 是 否 与 另 一 张 表 的 主键 相 匹配 。 最 好 的 方法 是 使 用 anti_join()， 由 于 数据 录 
入 错误 ， 外 键 和 主键 不 匹配 的 情况 很 常见 。 解 决 这 种 问题 通常 需要 大 量 工作 。 
如 有 果 键 中 确实 有 缺失 值 ， 那 么 你 就 要 次 思 熟 虑 一 下 ， 是 应 该 使 用 内 连接 还 是 外 连接 ， 此 
外 ， 是 否 应 该 丢弃 那些 没有 匹配 记录 的 行 。 
注意 ， 仅 赁 检查 连接 前 后 的 行 数 是 不 足以 确保 连接 能 够 顺畅 运行 的 。 如 有 果 进 行 了 两 张 表 都 
有 重复 键 的 内 连接 ， 那 么 就 很 可 能 不 幸 地 遇 到 这 种 情况 : 被 丢弃 的 行 的 数量 正好 等 于 重复 
行 的 数量 ! 
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9.7 集合 操作 


两 表 之 间 的 最 后 一 种 操作 就 是 集合 操作 。 我 们 通常 很 少 使 用 这 种 操作 ， 但 如 有 果 你 想 要 将 一 个 复 
杂 的 算 选 操作 分 解 为 多 个 简单 部 分 时 ， 它 们 还 是 有 些 用 处 的 。 所 有 集合 操作 都 是 作用 于 整 行 


的 ， 比 较 的 是 每 个 变量 的 值 。 集 合 操作 需要 x 和 y 具有 相同 的 变 


intersect(x, y) 

返回 既 在 x 表 ， 又 在 y 表 中 的 观测 。 
union(x, y) 

返回 x 表 或 y 表 中 的 唯一 观测 。 
setdiff(x, y) 

返回 在 x 表 ， 但 不 在 y 表 中 的 观测 。 
给 定 以 下 简单 数据 : 








df1 <- tribble( 
x, ~y, 
Ea y 
2; 1 


df2 <- tribble( 
~X, ~y, 
1. 了 
Dop 


4 种 可 能 的 集合 操作 为 : 


intersect(df1, df2) 
#> # A tibble: 1 x 2 


#> x y 
#> <dbl> <dbl> 
#> 1 J 了 


# 注意 ， 我 们 得 到 了 3 行 ， 而 不 是 4 行 
union(df1, df2) 
#> # A tibble: 3 x 2 


#> x y 
Ws <dbls <dbl> 
#> 1 + 2 
g 2 2 f 
#3 3 1 


setdiff(df1, df2) 
#> # A tibble: 1 x 2 


#> x y 
#> <dbl> <dbl> 
Asi 2 1 


setdiff(df2, df1) 
Ws # A tibble: 1x 2 


#> x y 
办 > <dbl> <dbl> 
#> 1 pi 2 





并 将 观测 按照 集合 来 处 理 。 


H 
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使 用 stringr 处 理 字 符 串 





10.1 简介 

本 章 将 介绍 R 中 的 字符 串 处 理 。 你 将 学 习 字 符 串 的 基本 工作 原理 ， 以 及 如 何 手 工 创建 字符 
串 ， 但 本 章 的 重点 是 正则 表达 式 (regular expression，regexp) 。 正 则 表达 式 的 用 处 非常 大 ， 
字符 串通 常 包含 的 是 非 结 构 化 或 半 结 构 化 数据 ， 正 则 表达 式 可 以 用 简练 的 语言 来 描述 字符 
串 中 的 模式 。 第 一 次 见 到 正则 表达 式 时 ， 你 可 能 会 认为 它 是 猫 在 键盘 上 踩 出 来 的 ， 但 随 着 
逐渐 加 深 对 它 的 理解 后 ， 你 就 能 体会 其 中 的 深刻 含义 了 。 


准备 工作 
本 章 的 重点 是 用 于 字符 串 处 理 的 stringr 包 。 因 为 不 会 一 直 处 理 文本 数据 ， 所 以 stringr 不 是 
tidyverse 核心 R 包 的 一 部 分 ， 我 们 需 ;要 使 用 命 命令 来 加 载 它 。 


library(tidyverse) 
library(stringr) 


10.2 ”字符 串 基础 


可 以 使 用 单 引 号 或 双 引 号 来 创建 字符 串 。 与 其 他 语言 不 同 ， 单 引号 和 双 引 号 在 R 中 没有 区 
别 。 我 们 推荐 使 用 "， 除 非 你 想 要 创建 包含 多 个 " 的 一 个 字符 串 : 


string1 <- "This is a string" 
string2 <- 'To put a "quote" inside a string, use single quotes' 


如 果 忘 记 了 结尾 的 引号 ， 你 会 看 到 一 个 +， 这 是 一 个 续 行 符 : 


> "This is a string without a closing quote 
+ 
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£ 
+ HELP I'M STUCK 


如 果 遇 到 了 这 种 情况 ， 可 以 按 Esc 键 ， 然 后 重新 输入 。 
如 果 想 要 在 字符 串 中 包含 一 个 单 引 号 或 双 引 号 ， 可 以 使 用 \ 对 其 进行 “ 转 义 ”: 


double quote <- "V"" # or '"' 
single_quote <- 'V''! # or "'" 


这 意味 着 ， 如 果 想 要 在 字符 串 中 包含 一 个 反 斜 杠 ， 就 需要 使 用 两 个 反 斜 杜 :\\。 

注意 ， 字 符 串 的 打印 形式 与 其 本 身 的 内 容 不 是 相同 的 ， 因 为 打印 形式 中 会 显示 出 转 义 字 
如 果 想 要 查看 字符 串 的 初始 内 容 ， 可 以 使 用 writeLines() 函数 : 

TE e 


x 


we FU s ew wt 


writeLines(x) 
#> " 
#1 


还 有 其 他 儿 种 特殊 字符 。 最 常用 的 是 换行 符 \n 和 制 表 符 \t， 你 可 以 使 用 ?'"' 或 ?"'" 调 
出 帮助 文件 来 查看 完整 的 特殊 字符 列表 。 有 了 时 你 还 会 看 到 "\ueebs" 这 样 的 字符 串 ， 这 是 一 
种 在 所 有 平台 上 都 有 效 的 非 英文 字符 的 写法 : 





区 





= B 

















x <- "\u00b5" 
X 
#> [1] "u " 

















c("one", "two", "three") 
#> [1] "one" "two" "three" 


10.2.1 字符 串 长 度 


R 基础 包 中 包含 了 很 多 字符 串 处 理 函 数 ， 但 我 们 尽量 不 使 用 这 些 函 数 ， 因 为 它们 的 使 用 方 
法 不 一 致 ， 很 难 记忆 。 相 反 ， 我 们 将 使 用 stringr 中 的 函数 ， 这 些 函 数 的 名 称 更 直观 ， 并 且 
都 是 以 str_ 开头 的 。 例 如 ，str_Length() 函数 可 以 返回 字符 串 中 的 字符 数量 : 


str_length(c("a", "R for data science", NA)) 
#> [1] 1 18 NA 


如 果 使 用 RStudio， 那 么 通用 前 级 str_ 会 特别 有 用 ， 因 为 输入 str_ 后 会 触发 自动 完成 功 
能 ， 你 可 以 看 到 所 有 的 字符 串 函 数 : 























= | str_c(..., sep = "", collapse = NULL) 
>| 

# str_conv {stringr} | To understand how str_c works, you need to imagine that you are 
l: @ str_count (strtingrt building up a matrix of strings. Each input argument forms a 
>P s i column, and is expanded to the length of the longest argument, 
>| str_detect {stringr} | using the usual recyling rules. The sep string is inserted between 
>| $ str_dup [stringr} each column. If collapse is NULL each row is collapsed into a single 
s = x 二” string. If non-NULL that string is inserted at the end of each row, 
= ə Str_extract ngr} | and the entire matrix collapsed to a single string. 
> | @ str_extract_all {stringr} | PressFlforadditional help 
> str_| 
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10.2.2 ”字符 串 组 合 
要 想 组 合 两 个 或 更 多 字符 串 ， 可 以 使 用 str_c() 函数 ， 


str c("x", gt) 


#> [1] Ry" 
str_c("x", "y", "z") 
#> [1] "xyz" 


可 以 使 用 sep 参数 来 控制 字符 串 间 的 分 隔 方式 : 


str eC"x", we sep = Lm j 
加 > [3] "x, y" 


和 多 数 R 函数 一 样 ， 缺 失 值 是 可 传染 的 。 如 果 想 要 将 它们 输出 为 "NA"， 可 以 使 用 str_ 


replace_na(): 














x <- c("abc", NA) 


str eje; X， "a [3 
#> [1] "|-abc-|/" NA 
str_c("|-", str_replace_na(x), "-|") 


#> [1] "l-abc-|" "|-NA-|" 
如 以 上 代码 所 示 ，str_c() 函数 是 向 量化 的 ， 它 可 以 自动 循环 短 向 量 ， 使 得 其 与 最 长 的 向 
量具 有 相同 的 长 度 : 


str_c("prefix-", Ea "b", "e"; -Suffix") 
#> [1] "prefix-a-suffix" "prefix-b-suffix" "prefix-c-suffix" 


长 度 为 0 的 对 象 会 被 无 声 无 息 地 丢弃 。 这 与 if 结合 起 来 特别 有 用 : 


name <- "Hadley" 
time_of_day <- "morning" 
birthday <- FALSE 


str_c( 
"Good ", time_of_day, " ", name, 
if (birthday) " and HAPPY BIRTHDAY", 


) 
#> [1] "Good morning Hadley." 


要 想 将 字符 向 量 合并 为 字符 串 ， 可 以 使 用 collapse() 函数 : 


str cler", MU; na Yy collapse = po "y 
#> A] “x; Yyy 2" 


10.2.3 字符 串 取 子 集 


可 以 使 用 str_sub() 国 数 来 提取 字符 串 的 一 部 分 。 除 了 字符 串 参 数 外 ，str_sub() 函数 中 还 
有 start 和 end 参数 ， 它 们 给 出 了 子 串 的 位 置 (包括 start 和 end ÆW) : 


x <- c("Apple", "Banana", "Pear") 
str_sub(x, 1, 3) 
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办 > [1] "App" "Ban" "Pea" 


# 负数 表示 从 后 往 前 数 
Str sub(xy =3, =1) 
#> [1] "ple" "ana" "aar" 


注意 ， 即 使 字符 串 过 短 ，str_sub() 函数 也 不 会 出 错 ， 它 将 返回 尽 可 能 多 的 字符 : 


str_sub("a", 1, 5) 
#> [1] "a" 


还 可 以 使 用 str_sub() 国 数 的 赋值 形式 来 修改 字符 串 : 


str_sub(x, 1, 1) <- str_to_lower(str_sub(x, 1, 1)) 
x 
#> [1] "apple" "banana" "pear" 








10.2.4 区 域 设 置 


前 面 我 们 使 用 了 str_to_lower() 函数 将 文本 转换 为 小 写 ， 你 还 可 以 使 用 str_to_upper() 或 
str_to_title() 国 数 。 但 是 ， 大 小 写 转换 要 比 你 想象 的 更 复杂 ， 因 为 不 同 的 语言 有 不 同 的 
转换 规则 。 你 可 以 通过 明确 区 域 设 置 来 选择 使 用 哪 种 规则 : 

# 土耳其 语 中 有 带 点 和 不 带 点 的 两 个 1， 它们 在 转换 为 大 写 时 是 不 同 的 : 

str to upper(e("t", "LT )) 

区 

str_to_upper(c("i", "u"), locale = "tr") 

a 1 ae 
区 域 设 置 可 以 参考 ISO 639 语言 编码 标准 ， 语 言 编码 是 2 或 3 个 字母 的 缩写 。 如 果 不 知道 自 
己 的 语言 编码 ， 那 么 你 可 以 查看 维基 百科 上 的 List of ISO 639-1 codes， 其 中 有 一 个 非常 好 的 
列表 。 如 果 没 有 进行 区 域 设置 ， 那 么 函数 就 会 使 用 由 操作 系统 提供 的 当前 区 域 设置 。 
受 区 域 设置 影响 的 另 一 种 重要 操作 是 排序 。R 基础 包 中 的 order() 和 sort() 函数 使 用 当 
前 区 域 设 置 对 字符 串 进 行 排序 。 如 果 需 要 更 强大 的 、 可 以 在 不 同 计算 机 间 使 用 的 排序 操 
作 ， 那 么 可 以 使 用 str_sort() 和 str_order() 国 数 ， 它 们 可 以 使 用 locale 参数 来 进行 区 域 
设置 ; 


x <- c("apple", "eggplant", "banana") 









































str_sort(x, locale = "en") # 英语 
#> [1] "apple" "banana" "eggplant" 


str_sort(x, locale = "haw") # 夏威夷 语 
#> [1] "apple" "eggplant" "banana" 


10.2.5 y 

(1) 在 没有 使 用 stringr 的 那些 代码 中 ， 你 会 经 常 看 到 paste() 和 pasteg() 函数 ， 这 两 个 函 
数 的 区 别 是 什么 ? stringr 中 的 哪 两 个 函数 与 它们 是 对 应 的 ?这 些 函 数 处 理 NA 的 方式 有 
什么 不 同 ? 
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(2) 用 自己 的 语言 描述 一 下 str_c() 函数 的 sep 和 collapse 参数 有 什么 区 别 ? 

(3) 使 用 str_length() 和 str_sub() 函数 提取 出 一 个 字符 串 最 中 间 的 字符 。 如 果 字 符 串 中 的 
字符 数 是 偶数 ， 你 应 该 怎么 做 ? 

(4) str_wrap() 函数 的 功能 是 什么 ”应 该 在 何 时 使 用 这 个 函数 ? 

(5) str_trim() 函数 的 功能 是 什么 ”其 逆 操 作 是 哪个 函数 ? 


(6) 编写 一 个 函数 将 字符 向 量 转换 为 字符 串 ， 例 如 ， 将 字符 向 量 c("a", "b", "c") 转换 为 
字符 串 a、b 和 c。 仔 细 思 考 一 下 ， 如 果 给 定 一 个 长 度 为 0、1 或 2 的 向 量 ， 那 么 这 个 函 
数 应 该 怎么 做 ? 


10.3 ”使 用 正则 表达 式 进行 模式 匹配 
正则 表达 式 是 一 门 非常 精练 的 语言 ， 可 以 描述 字符 串 中 的 模式 。 理 解 正则 表达 式 需 要 花费 
一 点 精力 ， 但 是 一 旦 理解 了 ， 你 就 会 发 现 其 功能 如 此 强大 。 


我 们 通过 str_view() 和 str_view_all() 国 数 来 学 习 正 则 表达 式 。 这 两 个 函数 接受 一 个 字符 
向 量 和 一 个 正则 表达 式 ， 并 显示 出 它们 是 如 何 匹 配 的。 我 们 先 从 非常 简单 的 正则 表达 式 开 
始 ， 然 后 循序 渐进 地 学 习 更 加 复杂 的 正则 表达 式 。 一 旦 掌握 了 模式 匹配 ， 你 就 知道 如 何 将 
这 种 思想 应 用 于 不 同 的 stringr 国 数 了 。 


10.3.1 基础 匹配 
最 简单 的 模式 是 精确 匹配 字符 串 :， 


x <- c("apple", "banana", "pear") 
str_view(x, "an") 



































apple 
banana 


pear 
另 一 个 更 复杂 一 些 的 模式 是 使 用 .， 它 可 以 匹配 任意 字符 〈 除 了 换行 符 ) : 
str_view(x, ".a.") 
apple 


banana 
pear 


但 是 ， 如 果 . 可 以 匹配 任意 字符 ， 那 么 如 何 匹配 字符 . 呢 ? 你 需要 使 用 一 个 “ 转 义 ”符号 来 告 
诉 正则 表达 式 实际 上 就 是 要 匹配 . 这 个 字符 ， 而 不 是 使 用 . 来 匹配 其 他 字符 。 和 字符 串 一 样 ， 
正则 表达 式 也 使 用 反 斜 杠 来 去 除 某 些 字 符 的 特殊 含义 。 因 此 ， 如 果 要 匹配 .， 那 么 你 需要 的 正 
则 表达 式 就 是 \.。 遗 憾 的 是 ， 这 样 做 会 带 来 一 个 问题 。 因 为 我 们 使 用 字符 串 来 表示 正则 表达 
式 ， 而 且 \ 在 字符 串 中 也 用 作 转 义 字符 ， 所 以 正则 表达 式 \. 的 字符 串 形式 应 是 XN. : 







































































注 1: 要 想 显示 以 下 图 片 ， 还 需要 额外 安装 两 个 R 包 : htmltools 和 htmlwidgets。 一 一 译 者 注 
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# 要 想 建 立正 则 表示 式 ， 我 们 需要 使 用 1 
dot <- "AV." 


# 实际 上 表达 式 本 身 只 包含 一 个 1: 
writeLines(dot) 
WS ls 


# 这 个 表达 式 告诉 R 搜 索 一 个 . 

str_view(c("abc", "a.c", "bef"), "a\\.c") 
abc 
a.c 
bef 


如 果 \ 在 正则 表达 式 中 用 作 转 义 字 符 ， 那 么 如 何 匹 配 \ 这 个 字符 呢 ? 我 们 还 是 需要 去 除 其 
特殊 意义 ， 建 立 形 式 为 NN 的 正则 表达 式 。 要 想 建立 这 样 的 正则 表达 式 ， 我 们 需要 使 用 一 个 
字符 串 ， 甚 中 还 需要 对 \ 进行 转 义 。 这 意味 着 要 想 匹 配 字符 \， 我 们 需要 输入 "\\\\" 一 一 
你 需要 4 个 反 斜 杠 来 匹配 1 ARHI! 

x <- "a\\b" 


writeLines(x) 
#> a\b 























str_view(x, "\\\\") 
a\b 
本 书 将 正则 表达 式 写 作 \.， 将 表示 正则 表达 式 的 字符 串 写作 "\\."。 





10.3.2 练习 

(1D) 解释 一 下 为 什么 这 些 字符 囊 不 能 匹配 一 个 反 斜 本 \: "us. ss. "AAA" 

(2) 如 何 匹配 字符 序列 W 

O 正则 表达 式 \.、\.、\. . 会 匹配 哪 种 模式 》 如 何 用 字符 串 来 表示 这 个 正则 表达 式 ? 


10.3.3 $E 

默认 情况 下 ， 正 则 表达 式 会 匹配 字符 串 的 任意 部 分 。 有 时 我 们 需要 在 正则 表达 式 中 设置 锚 
点 ,以 便 R 从 字符 串 的 开头 或 末尾 进行 匹配 。 我 们 可 以 设置 两 种 锚 点 。 

。 ^ 从 字符 串 开 头 进行 匹配 。 

。 $ 从 字符 串 末 尾 进行 匹配 。 


x <- c("apple", "banana", "pear") 
str_view(x, "^a") 





apple 
banana 


pear 
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str_view(x, "a$") 
apple 
banana 
pear 
为 了 帮助 你 记 住 并 区 分 这 两 种 锚 点 的 用 法 ， 我 们 介绍 一 种 来 自 于 Evan Misshula 的 记忆 方 
法 : 始 于 权力 (a), 终于 金钱 ($) °, 
如 果 想 要 强制 正则 表达 式 匹 配 一 个 完整 字符 串 ， 那 么 可 以 同时 设置 ^ 和 $ 这 两 个 锚 点 : 
x <- c("apple pie", "apple", "apple cake") 
str_view(x, "apple") 
apple pie 
apple 
apple cake 
str_view(x, "^apple$") 
apple pie 
apple 
apple cake 
还 可 以 使 用 \b 来 匹配 单词 间 的 边界 。 这 种 匹配 在 R 中 不 是 很 常用 ， 但 当 我 们 想 在 RStudio 
中 搜索 可 以 用 于 其 他 函数 中 的 函数 名 称 时 ， 有 时 会 使 用 这 种 方式 。 例 如 ， 为 了 避免 匹配 到 
summarize, summary, rowsum 等 ， 我 们 会 使 用 \bsum\b 进行 搜索 。 








10.3.4 ”练习 

(1) 如 何 匹 配 字符 串 "sas" ? 

(2) 给 定 stringr::words 中 的 常用 单词 语料库 ， 创 建 正则 表达 式 以 找 出 满足 下 列 条 件 的 所 
有 单词 。 

.以 y 开头 的 单词 。 

. 以 x 结尾 的 单词 。 

.长 度 正好 为 3 个 字符 的 单词 。( 不 要 使 用 str_Length() 函数 ， 这 是 作 次 | ) 

. 具有 7 个 或 更 多 字符 的 单词 。 

因为 这 个 列表 非常 长 ， 所 以 你 可 以 设置 str_view() 国 数 的 match 参数 ， 只 显示 匹配 的 

单词 (match = TRUE) 或 未 匹配 的 单词 (match = FALSE)。 


10.3.5 ”字符 类 与 字符 选项 
很 多 特殊 模式 可 以 匹配 多 个 字符 。 我 们 已 经 介绍 过 .， 它 可 以 匹配 除 换行 符 外 的 任意 字符 。 
还 有 其 他 4 种 常用 的 字符 类 。 

\d 可 以 匹配 任意 数字 。 





aoo 














注 2: ^ 经 常用 于 表示 乘 方 运 算 ， 乘 方 和 权力 在 英文 中 都 是 power 这 个 单词 。 一 一 译 者 注 
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\s 可 以 匹配 任意 空白 字符 (如 空格 、 制 表 符 和 换行 符 )。 
[abc] 可 以 匹配 a、b 或 c。 
[^abc] 可 以 匹配 除 a、b、c 外 的 任意 字符 。 


请 牢记 ， 要 想 创建 包含 \d 或 Vs 的 正则 表达 式 ， 你 需要 在 字符 串 中 对 \ 进行 转 义 ， 因 此 需 
要 输入 "\\d" 或 "\\s"。 

你 还 可 以 使 用 字符 选项 创建 多 个 可 选 的 模式 。 例 如 ，abcld..f 可 以 匹配 abc 或 deaf。 广 
意 ， 因 为 | 的 优先 级 很 低 ， 所 以 abc|xyz 匹配 的 是 abc 或 xyz， 而 不 是 abcyz 或 abxyz。 与 
数学 表达 式 一 样 ， 如 果 优 先 级 让 人 感到 困惑 ， 那 么 可 以 使 用 括号 让 其 表达 得 更 清晰 一 些 : 


str_view(c("grey", "gray"), "gr(ela)y") 














grey 
gray 


10.3.6 ”练习 

(1) 创建 正则 表达 式 来 找 出 符合 以 下 条 件 的 所 有 单词 。 

以 元 音字 母 开 头 的 单词 。 

只 包含 辅音 字母 的 单词 (提示: 考虑 一 下 匹配 “ 非 ”元 音字 母 )。 
以 ed 结尾 ， 但 不 以 eed 结尾 的 单词 。 

d. 以 ing 或 ize 结尾 的 单词 。 


(2) 实际 验证 一 下 规则 ; i 总 是 在 e 前 面 ， 除 非 1 前 面 有 6。 
(3)q 后 面 总 是 跟着 一 个 u 吗 ? 
(4) 编写 一 个 正则 表达 式 来 匹配 英 式 英语 单词 ， 排 除 美式 英语 单词 。 
(5) 创建 一 个 正则 表达 式 来 匹配 你 所 在 国家 的 电话 号 码 。 


10.3.7 ”重复 

正则 表达 式 的 另 一 项 强大 功能 是 ， 其 可 以 控制 一 个 模式 能 够 匹配 多 少 次 。 
?: 0 次 或 1 次 。 
+: 1 次 或 多 次 。 
*: 0 次 或 多 次 。 


x <- "1888 is the longest year in Roman numerals: MDCCCLXXXVIII" 
str_view(x, "CC?") 








O Sp 

















1888 is the longest year in Roman numerals: MDCCCLXXXVIII 


str_view(x, "CC+") 


1888 is the longest year in Roman numerals: MDCCCLXXXVIII 





str_view(x, 'C[LX]+') 
1888 is the longest year in Roman numerals: MDCCCLXXXVIII 
注意 ， 这 些 运 算 符 的 优先 级 非常 高 ， 因 此 使 用 colou?r 既 可 以 匹配 cotlor， 也 可 以 匹配 
colour。 这 意味 着 很 多 时 候 需 要 使 用 括号 ， 比 如 bana(na)+。 
你 还 可 以 精确 设置 匹配 的 次 数 。 
° (n): PEH n IK, 
° {fn,}: 匹配 n 次 或 更 多 次 。 


° {,m}: 最 多 匹配 m 次 。 
° (n, m): ELB n £| m Z, 


str_view(x, "C{2}") 

1888 is the longest year in Roman numerals: MDCCCLXXXVIII 
str_view(x, "C{2,}") 

1888 is the longest year in Roman numerals: MDCCCLXXXVIII 
str_vtew(x, "C(2,3)") 

1888 is the longest year in Roman numerals: MDCCCLXXXVIII 


默认 的 匹配 方式 是 “ 贪 禁 的 ”: 正则 表达 式 会 匹配 尽量 长 的 字符 串 。 通 过 在 正则 表达 式 后 
面 添加 一 个 ?， 你 可 以 将 匹配 方式 更 改 为 “懒惰 的 "， 即 匹配 尽量 短 的 字符 串 。 虽 然 这 是 正 
则 表达 式 的 高 级 特性 ， 但 知道 这 一 点 是 非常 有 用 的 。 


str_vtew(x, 'C(2,31?"') 





1888 is the longest year in Roman numerals: MDCCCLXXXVIII 


str_view(x, 'C[LX]+?') 


1888 is the longest year in Roman numerals: MDCCCLXXXVIII 


10.3.8 练习 
(1) 给 出 与 ?、+ 和 * 等 价 的 (m, n) 形式 的 正则 表达 式 。 


(2) 用 语言 描述 以 下 正则 表达 式 匹配 的 是 何 种 模式 (仔细 阅读 来 确认 我 们 使 用 的 是 正则 表达 
式 ， 还 是 定义 正则 表达 式 的 字符 串 ) ? 








a. 人.xS 
b. "AMAJ" 
c. \d{4}-\d{2}-\d{2} 
d. "\\ MA" 
(3) 创建 正则 表达 式 来 找 出 满足 以 下 条 件 的 所 有 单词 。 


a. 以 3 个 辅音 字母 开头 的 单词 。 
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b. 有 连续 3 个 或 更 多 元 音字 母 的 单词 。 
c. 有 连续 2 个 或 更 多 元 音 一 辅音 配对 的 单词 。 


(4) 解 一 下 https://regexcrossword.com/challenges/beginner 中 的 正则 表达 式 入 门 级 纵横 字谜 。 


10.3.9 ”分 组 与 回溯 引用 


你 已 经 在 前 面 学 习 了 括号 可 以 用 于 消除 复杂 表达 式 中 的 歧义 。 括 号 还 可 以 定义 “分 组 ”， 
你 可 以 通过 回溯 引用 (如 \1、\2 等 ) 来 引用 这 些 分 组 。 例 如 ， 以 下 的 正则 表达 式 可 以 找 出 
名 称 中 有 重复 的 一 对 字母 的 所 有 水 果 : 


str_view(fruit, "(..)NV1", match = TRUE) 


























banana 
coconut 
cucumber 
jujube 
papaya 


salal berry 


(你 很 快 就 会 看 到 这 种 匹配 方式 与 str_match() 函数 结合 起 来 使 用 是 多 么 有 效 。) 


10.3.10 J 
(1) 用 语言 描述 以 下 正则 表达 式 会 匹配 何 种 模式 ? 


(.)\1\1 

e "EDENN" 

Cos) NL 

e "DANLA" 
"CDC)C) A322 


(2) 创建 正则 表达 式 来 匹配 出 以 下 单词 。 


a. 开头 字母 和 结尾 字母 相同 的 单词 。 
b. 包含 一 对 重复 字母 的 单词 (例如 ，church 中 包含 了 重复 的 ch)。 
c， 包 含 一 个 至 少 重复 3 次 的 字母 的 单词 (例如 ，eleven 中 的 e 重复 了 3 次 )。 


10.4 工具 


既然 我 们 已 经 掌握 了 正则 表达 式 的 基础 知识 ， 现 在 是 时 候 学 习 如 何 应 用 它们 来 解决 实际 问 
题 了 。 我 们 将 在 本 市 中 学 习 多 种 stringr 函数 ， 它 们 可 以 : 


。 确定 与 某 种 模式 相 匹配 的 字符 串 ， 
。 找 出 匹配 的 位 置 ， 

° 提取 出 匹配 的 内 容 ; 

° 使 用 新 值 替换 匹配 内 容 ， 

。 基于 匹配 拆 分 字符 串 。 


° Po = > 
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继续 以 下 内 容 前 ， 我 们 需要 先 提醒 你 一 下 : 
为 所 有 问题 都 可 以 使 用 一 个 正则 表达 式 来 解决 。 正 如 Jamie Zawinski FI 


当 遇 到 一 个 问题 时 ， 有 些 人 会 这 样 想 : 





原来 的 一 个 问题 就 变 成 了 两 个 问题 。 


作为 一 


则 警世 恒 言 ， 我 


因为 正则 表达 式 太 强大 了 ， 所 以 我 们 很 容易 认 





TI 








“我 可 以 用 正则 表达 式 来 搞定 它 。” 


门 看 看 以 下 检查 电子 邮件 地 址 是 否 有 效 的 这 个 正则 表达 


所 说 。 





于 是 ， 


式 : 


这 个 示例 是 不 是 有 些 变 态 (当然 电子 邮件 的 地 址 确实 特别 复杂 )， 
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:(?:NrNn)?[ \t]))*"(?:(?:NrNn)?[ \t])*)(?:\.(? 
AX031J+(?:(?:(?:VrXn)?[ \t])+1\Z1(?=[\["()<>@,;:NN".\ 
))x"(?:(?:\r\n)?[ \t])x*))x@(?:(?:Nr\n)?[ \t])*(?:[^()<>e@,;i:NN". 
(?=[\["()<>8,;:\\".\[\]]))1N[([^\[C\]\rANJINN\.)xN\](?:(?:Mr\n)? 



















C \t])*)(?:\.(?:(?:NMrNn)?[ \t])*(?:[^()<>@,i:N\\".\[\] \000-\631]+(?:(?:(?:NrNn)?3[ XNtJ)+|VZ| (?=[N 


[*O<8, ;M.DNID) NL NIN NN. 


\JC?: (2:AXArX0)?[ \t])*))*\>(?:(?:Nr\n)?3[ \t])*))*)?;\s*) 


但 它 确实 来 自 于 实际 代码 。 


可 以 查看 Stack Overflow 上 的 讨论 (lupillaichoysrflowoqm/y201398) 来 获取 更 多 信息 。 


别 忘 了 你 使 用 的 是 一 门 编程 语言 ， 


还 有 很 多 其 





他 工具 随时 待命 。 相 对 于 创建 一 个 复杂 的 正 


则 表达 式 ， 
解决 问题 ， 那 么 你 就 应 该 回 
然后 一 个 个 地 依次 解决 。 





更 简单 的 方式 是 创建 多 个 简单 的 正则 表达 式 。 如 果 很 难 使 用 一 个 正则 表达 式 来 


回 过 头 仔细 思 芳 一 下 ， 是 否 可 以 将 一 个 癌 题 分 解 为 多 个 小 问题 
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10.4.1 ”匹配 检测 


要 想 确 定 一 个 字符 向 量 能 否 匹配 一 种 模式 ， 可 以 使 用 str_detect() 函数 。 它 返回 一 个 与 输 
入 向 量具 有 同样 长 度 的 逻辑 向 量 : 


x <- c("apple", "banana", "pear") 
str_detect(x, "e") 
#> [1] TRUE FALSE TRUE 


记 住 ， 从 数学 意义 上 来 说 ， 逻 辑 向 量 中 的 FALSE 为 0，TRUE 为 1。 这 使 得 在 匹配 特别 大 的 
向 量 时 ，sum() 和 mean() 国 数 能 够 发 挥 更 大 的 作用 : 


# 有 多 少 个 以 t 开 头 的 常用 单词 ? 
sum(str_detect(words, "At")) 

#> [1] 65 

# 以 元 音 字母 结尾 的 常用 单词 的 比例 是 多 少 ? 
mean(str_detect(words, "[aeiou]$")) 

#> [1] 0:277 


当 逻 辑 条 件 非常 复杂 时 (Aan, 匹配 a 或 b， 但 不 匹配 c， 除 非 d 成 立 ) ， 一 般 来 说 ， 相 对 
于 创建 单个 正则 表达 式 ， 使 用 逻辑 运算 符 将 多 个 str_detect() 调用 组 合 起 来 会 更 容易 。 例 
如 ， 以 下 两 种 方法 均 可 找 出 不 包含 元 音字 母 的 所 有 单词 ; 


# 找 出 至 少 包 含 一 个 元 音字 母 的 所 有 单词 ， 然 后 取 反 
no_vowels_1 <- !str_detect(words, "[aeiou]") 

# 找 出 仅 包含 辅音 字母 〈 非 元 音字 母 ) 的 所 有 单词 
no_vowels_2 <- str_detect(words, "^[^aeiou]+$") 
identical(no_vowels_1, no_vowels_2) 

#> [1] TRUE 


两 种 方法 的 结果 是 一 样 的 ， 但 我 们 认为 第 一 种 方法 明显 更 容易 理解 。 如 果 正 则 表达 式 过 于 
复杂 ， 则 应 该 将 其 分 解 为 几 个 更 小 的 子 表达 式 ， 将 每 个 子 表达 式 的 匹配 结果 赋 给 一 个 变 
量 ， 并 使 用 逻辑 运算 组 合 起 来 。 

str_detect() 国 数 的 一 种 常见 用 法 是 选取 出 匹配 某 种 模式 的 元 素 。 你 可 以 通过 逻辑 取 子 集 
方式 来 完成 这 种 操作 ， 也 可 以 使 用 便捷 的 str_subset() 包装 器 函数 : 


words[str_detect(words, "x$")] 
#> [1] "box" ES "eix" negx” 
str_subset(words, "x$") 

#> [1] "box" ET "eix" "tgx" 


然而 ， 字 符 串 通常 会 是 数据 框 的 一 列 ， 此 时 我 们 可 以 使 用 filter 操作 : 


df <- tibble( 
word = words， 
i = seq_along(word) 
) 
df %>% 
filter(str_detect(words, "x$")) 
#> # A tibble: 4 x 2 
#> word i 
办 > <chr> <int> 
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#> 1 box 108 
#> 2 sex 747 
# 3 Six 772 
#> 4 tax 841 


str_detect() 函数 的 一 种 变 体 是 str_count()， 后 者 不 是 简单 地 返回 是 或 否 ， 而 是 返回 字符 
串 中 匹配 的 数量 : 


x <- c("apple", "banana", "pear") 
str counto "a" 
# [1] i31 


# 平均 来 看 ， 每 个 单词 中 有 多 少 个 元 音字 母 ? 
mean(str_count(words, "[aeiou]")) 
#> [1] 1:99 


str_count() 也 完全 可 以 同 mutate() 国 数 一 同 使 用 : 


df %>% 
mutate( 
vowels = str_count(word, "[aeiou]"), 
consonants = str_count(word, "[^aeiou]") 








) 

#> # A tibble: 980 x 4 

#> word i vowels consonants 
办 > <Ghr> <ints: -<int> sints 
#> 1 a 1 1 0 
#> 2 able 2 2 2 
#> 3 about 3 3 2 
#> 4 absolute 4 4 4 
#> 5 accept 5 2 4 
#> 6 account 6 3 4 
#> # ... with 974 more rows 


abababa 


注意 ， 匹 配 从 来 不 会 重 琶 。 例 如 ， 在 "abababa" 中 ， 模 式 "aba" 会 匹配 多 少 次 ? 正则 表达 
式 会 告诉 你 是 2 次 ,而 不 是 3 次 : 

str_count("abababa", "aba") 

#> [1] 2 

str_view_all("abababa", "aba") 


abababa 


注意 str_view_all() 函数 的 使 用 。 你 很 快 就 会 知道 ， 很 多 stringr 函数 都 是 成 对 出 现 的 : 一 
个 函数 用 于 单个 匹配 ， 男 一 个 函数 用 于 全 部 匹配 ， 后 者 会 有 后 级 _all。 


10.4.2 ”练习 


试 着 使 用 两 种 方法 来 解决 以 下 每 个 问题 ， 一 种 方法 是 使 用 单个 正则 表达 式 ， 田 一 种 方法 是 
使 用 多 个 str_detect() 国 数 的 组 合 。 


a， 找 出 以 x 开头 或 结尾 的 所 有 单词 。 
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b. 找 出 以 元 音字 母 开 头 并 以 辅音 字母 结尾 的 所 有 单词 。 

c. 是 否 存在 包含 所 有 元 音字 母 的 单词 ? 

d. 哪个 单词 包含 最 多 数量 的 元 音字 母 ? 哪个 单词 包含 最 大 比例 的 元 音字 母 ? (提示 : 
分 母 应 该 是 什么 ? ) 


10.4.3 ”提取 匹配 内 容 


要 想 提取 匹配 的 实际 文本 ， 我 们 可 以 使 用 str_extract() 函数 。 为 了 说 明 这 个 函数 的 用 
法 ， 我 们 需要 一 个 更 加 复杂 的 示例 。 我 们 将 使 用 维基 百科 上 的 Harvard sentences， 这 个 
数据 集 是 用 来 测试 VOP 系统 的 ， 但 也 可 以 用 来 练习 正则 表达 式 。 这 个 数据 集 的 全 名 是 


stringr::sentences: 














length(sentences) 

#> [1] 720 

head(sentences) 

#> [1] "The birch canoe slid on the smooth planks." 
#> [2] "Glue the sheet to the dark blue background. " 
#> [3] "It's easy to tell the depth of a well." 

#> [4] "These days a chicken leg is a rare dish." 
#> [5] "Rice is often served in round bowls." 

#> [6] "The juice of lemons makes fine punch." 


假设 我 们 想 要 找 出 包含 一 种 颜色 的 所 有 句子 。 首 先 ， 我 们 需要 创建 一 个 颜色 名 称 向 量 ， 然 
后 将 其 转换 成 一 个 正则 表达 式 : 


colors <- c( 

"red", "orange", "yellow", "green", "blue", "purple 
) 
color_match <- str_c(colors, collapse = "|") 
color_match 
#> [1] "redl|orangelyellowlgreen|bluelpurple" 


现在 我 们 可 以 选取 出 包含 一 种 颜色 的 句子 ， 再 从 中 提取 出 颜色 ， 就 可 以 知道 有 哪些 颜 
色 了 : 


has_color <- str_subset(sentences, color_match) 
matches <- str_extract(has_color, color_match) 
head(matches) 

#> [1] "blue" "blue" "red" "red" "red" "blue" 


注意 ，str_extract() 只 提取 第 一 个 匹配 。 我 们 可 以 先 选 取出 具有 多 于 一 种 匹配 的 所 有 名 
子 ， 然 后 就 可 以 很 容易 地 看 到 更 多 匹配 : 


more <- sentences[str_count(sentences, color_match) > 1] 
str_view all(more, color_match) 











It is hard to erase blue or red ink. 
The green light in the brown box flickered. 
The sky in the west is tinged with orange red. 


str_extract(more, color_match) 
#> [1] "blue" "green" "orange" 





这 是 stringr 函数 的 一 种 通用 模式 ， 因 为 单个 匹配 可 以 使 用 更 简单 的 数据 结构 。 要 想得到 所 
有 匹配 ， 可 以 使 用 str_extract_all() 函数 ， 它 会 返回 一 个 列表 : 


str_extract_all(more, color_match) 
#> [[1]] 

#> [1] "blue" "red" 

#> 

#> [[2]] 

#> [1] "green" "red" 

#> 

#> [[3]] 

#> [1] "orange" "red" 


你 将 在 15.5 节 和 第 16 章 中 学 到 更 多 关于 列表 的 知识 。 


如 果 设 置 了 simplify = TRUE, JBA str_extract_all() 会 返回 一 个 和 矩阵， 其 中 较 短 的 匹配 
会 扩展 到 与 最 长 的 匹配 具有 同样 的 长 度 : 


str_extract_all(more, color_match, simplify = TRUE) 
#> [sz] [s2] 
#> [1,] "blue" "red" 
#> [2,] "green" "red" 
#> [3,] "orange" "red" 











X <= Ea Ta p”, "a D e") 
str_extract_all(x, "[a-z]", simplify = TRUE) 
#> [s1] [27 P, 31] 

和 j a o 

#> [2,] "a" "p" 

#= [3;] "a" "p "g" 


10.4.4 ”练习 

(1) 在 前 面 的 示例 中 ， 你 或 许 已 经 发 现 正 则 表达 式 匹 配 了 flickered， 这 并 不 是 一 种 颜色 。 修 
改正 则 表达 式 来 解决 这 个 问题 。 

(2) 从 Harvard sentences 数据 集中 提取 以 下 内 容 。 


a， 每 个 句子 的 第 一 个 单词 。 
b. 以 ing 结尾 的 所 有 单词 。 
c， 所 有 复数 形式 的 单词 。 


10.4.5 “分 组 匹配 


我 们 在 本 章 前 面 讨 论 了 括号 在 正则 表达 式 中 的 用 法 ， 它 可 以 阐明 优先 级 ， 还 能 对 正则 表达 
式 进行 分 组 ， 分 组 可 以 在 匹配 时 回溯 引用 。 你 还 可 以 使 用 括号 来 提取 一 个 复杂 匹配 的 各 个 
部 分 。 举 例 来 说 ， 假 设 我 们 想 从 句子 中 提取 出 名 词 。 我 们 先进 行 一 种 启发 式 实验 ， 找 出 跟 
在 a 或 the 后 面 的 所 有 单词 。 因 为 使 用 正则 表达 式 定义 “单词 ”有 一 点 难度 ， 所 以 我 们 使 
用 一 种 简单 的 近似 定义 一 一 至 少 有 1 个 非 空 格 字符 的 字符 序列 : 
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str 


noun <- "(althe) ([^ ]+)" 


has_noun <- sentences %>% 

str_subset(noun) %>% 

head(10) 
has_noun %>% 

str_extract(noun) 
#> [1] "the smooth" "the sheet" "the depth" "a chicken" 
#> [5] "the parked" "the sun" "the huge" "the ball" 
#> [9] "the woman" "a helps" 


_extract() 函数 可 以 给 出 完整 匹配 ，str_match() 函数 则 可 以 给 出 每 个 独立 分 组 。str_ 





match() 返回 的 不 是 字符 向 量 ， 而 是 一 个 第 阵 ， 其 中 一 列 是 完整 匹配 ， 后 面 的 列 是 每 个 分 
组 的 匹配 : 


has_noun %>% 

str_match(noun) 
#> EES [2] L3] 
#> [1,] "the smooth" "the" "smooth" 
#> [2,] "the sheet" "the" "sheet" 
#> [3,] "the depth" "the" "depth" 


#> 14,] "a chicken”" "a"” "chicken" 

#> [5,] "the parked" "the" "parked" 

#> [6,] "the sun" "the" "sun" 

#> [7,] "the huge" "the" "huge" 

#> [8,] "the ball" "the" "ball" 

#> [9,] "the woman" "the" "woman" 

#> [10,] "a helps" "a" "helps" 
(不 出 所 料 ， 这 种 启发 式 名 词 检测 的 效果 并 不 好 ， 它 还 找 出 了 一 些 形容 词 ， 比 如 smooth 和 
parked. ) 


如 果 数 据 是 保存 在 tibble 中 的 ， 那 么 使 用 tidyr: :extract() 会 更 容易 。 这 个 函数 的 工作 方式 
与 str_match() 国 数 类 似 ， 只 是 要 求 为 每 个 分 组 提供 一 个 名 称 ， 以 作为 新 列 放 在 tibble 中 : 


与 str_extract() 函数 一 样 ， 如 果 想 要 找 出 每 个 字符 串 的 所 有 匹配 ， 你 需要 使 用 str_match 








tibble(sentence = sentences) %>% 
tidyr: :extract( 
sentence, c("article", "noun"), "(althe) ([^ ]+)", 
remove = FALSE 


) 

#> # A tibble: 720 x 3 

#> sentence article noun 
#> * <chr> <chr> <chr> 
#> 1 The birch canoe slid on the smooth planks. the smooth 
#> 2 Glue the sheet to the dark blue background. the sheet 
#> 3 It's easy to tell the depth of a well. the depth 
#> 4 These days a chicken leg is a rare dish. a chicken 
#> 5 Rice is often served in round bowls. <NA> <NA> 
#> 6 The juice of lemons makes fine punch. <NA> <NA> 
办 > # ... with 714 more rows 








all() 国 数 。 
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10.4.6 y 
(1) 找 出 跟 在 一 个 数 词 (one, two. three 等 ) 后 面 的 所 有 单词 ， 提 取出 数 词 与 后 面 的 单词 。 
(2) 找 出 所 有 缩 略 形式 ， 分 别 列 出 撒 号 前 面 和 后 面 的 部 分 。 


10.4.7 蔡 换 匹配 内 容 


str_replace() 和 str_replace_all() 国 数 可 以 使 用 新 字符 串 赫 换 匹 配 内 容 。 最 简单 的 应 用 
是 使 用 固定 字符 串 灰 换 匹 配 内 容 : 


x <- c("apple", "pear", "banana") 
str_replace(x, "[aeiou]", "-") 

办 > [1] "pple" "p-ar" "b-nana" 
str_replace_all(x, "[aeiou]", "-") 
#> [11 "-ppl-" "p--r” "(bays py 


通过 提供 一 个 命名 向 量 ， 使 用 str_replace_all() 函数 可 以 同时 执行 多 个 禁 换 : 


x <- c("1 house", "2 cars", "3 people") 
str_replace_all(x, c("1" = "one", "2" = "two", "3" = "three")) 
#> [1] "one house" "two cars" "three people" 


除了 使 用 固定 字符 串 蔡 换 匹 配 内 容 ， 你 还 可 以 使 用 回调 引用 来 插入 匹配 中 的 分 组 。 在 下 面 
的 代码 中 ， 我 们 交换 了 第 二 个 单词 和 第 三 个 单词 的 顺序 : 


sentences %>% 
str- replace (D^ Te) (Im J+) CES ey", "AAL V3 V2 >% 
head(5) 

#> [1] "The canoe birch slid on the smooth planks." 

#> [2] "Glue sheet the to the dark blue background. " 

#> [3] "It's to easy tell the depth of a well." 

#> [4] "These a days chicken leg is a rare dish." 

#> [5] "Rice often is served in round bowls." 
































10.4.8 练习 

(1) 使 用 反 斜 杠 禁 换 字符 串 中 的 所 有 斜 杠 。 
(2) 使 用 replace_all() 函数 实现 str_to_lower() 函数 的 一 个 简单 版 。 

(3) 交换 words 中 单词 的 首 字母 和 末尾 字母 ， 其 中 哪些 字符 串 仍然 是 个 单词 ? 


10.4.9 ” 拆 分 
str_split() 函数 可 以 将 字符 串 拆 分 为 多 个 片段 。 例 如 ， 我 们 可 以 将 句子 拆 分 成 单词 : 


sentences %>% 
head(5) %>% 
traspltt( 1) 
#> [[1]] 
#> [1] "The" "bireh” "canoe" 人 "on: "the" 
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#> [7] "smooth" "planks." 

#> 

#> [[2]] 

加 > [1] tue” "the" "sheet" "to" 

#> [5] "the" "dark" "blue" "background. " 

#> 

#> [[3]] 

#> [1] "Pe Tet "easy" ntg” Wk "the" "depth" “of” 
#> [8] "a" "well." 

#> 

#> [[4]] 

#> [1] "These" "days" “g” "chicken" "leg" i 14 
#> [Z] "am "rape" “dish,” 

#> 

#> [[5]] 

Ws [1] "Rice" "ia "often" "served" "in" "round" 
#> [7] "Bowls" 


因为 字符 向 量 的 每 个 分 量 会 包含 不 同 数量 的 片段 ， 所 以 str_split() 会 返回 一 个 列表 。 如 


果 你 拆 分 的 是 长 度 为 1 的 向 量 ， 那 么 只 要 简单 地 提取 列表 的 第 一 个 元 素 即 可 : 


"alblc|ld" %>% 
str_split("\\|") %>% 
.[[1]] 

Zs a tas Spr enr nqa 


否则 ， 和 返回 列表 的 其 他 stringr 函数 一 样 ， 你 可 以 通过 设置 simplify = TRUE 返回 一 个 和 矩阵: 


sentences %>% 
head(5) %>% 
str_split(" ", simplify = TRUE) 
#> [dl BA- B3 LA [s5] Pel r] 


#> [1] "The" "birch" “canoe” “stid” "on" "the" "smooth" 
#> [2,] "Glue" "the" "sheet" "to" "the" "dark" "blue" 
= [3] "TES" “easy” "io" "belt" "the" "depth" "of" 

#> [4,] "These" "days" "a" "chicken" "leg" "is" "a" 

= [5 T Ricen Tis" "often" "served" "in" "round" "bowls." 
#> [;8] [,9] 


#> [1,] "planks." Ta 
#> [2,] "background." "" 


#> [3] "a" "well." 
#> [4,] "rare" “dish 
#> HS J "" nn 


你 还 可 以 设 定 拆 分 片段 的 最 大 数量 : 


fields <- c("Name: Hadley", "Country: NZ", "Age: 35") 
fields %>% str_split(": ", n = 2, simplify = TRUE) 
#> [1] [z2] 


#> [1,] "Name" "Hadley" 
#> [2,] "Country" "NZ" 
#> [3;] "Age" We tt 


除了 模式 ， 你 还 可 以 通过 字母 、 行 、 句 子 和 单词 边界 (boundary() 函数 ) 来 拆 分 字符 串 : 





x <- "This ts a sentence. This is another sentence." 
str_view_all(x, boundary("word")) 


This is a sentence. This is another sentence. 


str_split(x, " ")[[1]] 


#> ri] "This" migr Sg" "sentence. " nn 
# [6] “Thus” 

EA ae" "another" "sentence. " 

str_split(x, boundary("word"))[[1]] 

#> [1] "This" PES a "sentence" "This" 
#> [6] "is" 

#> [7] "another" "sentence" 


10.4.10 ”练习 

(1) 拆 分 字符 串 "apples, pears, and bananas". 

(2) 为 什么 使 用 boundary("word") 的 拆 分 效果 要 比 "" 好 ? 

G) 使 用 空 字 符 串 〈"") 进行 拆 分 会 得 到 什么 结果 ?尝试 一 下 ， 然 后 阅读 文档 。 
































10.4.11 定位 匹配 内 容 

str_locate() 和 str_locate_all() 函数 可 以 给 出 每 个 匹配 的 开始 位 置 和 结束 位 置 。 当 没有 
其 他 函数 能 够 精确 地 满足 需求 时 ， 这 两 个 函数 特别 有 用 。 你 可 以 使 用 str_Locate() 函数 找 
出 匹配 的 模式 ， 然 后 使 用 str_sub() 函数 来 提取 或 修改 匹配 的 内 容 。 


10.5 ”其 他 类 型 的 模式 
当 使 用 一 个 字符 串 作 为 模式 时 ，R 会 自动 调用 regex() 函数 对 其 进行 包装 : 
str_view(fruit, "nana") 
# 上 面 形式 是 以 下 形式 的 简写 
str_view(fruit, regex("nana")) 
你 可 以 使 用 regex() 函数 的 其 他 参数 来 控制 具体 的 匹配 方式 。 
° ignore_case = TRUE 既 可 以 匹配 大 写字 母 ， 也 可 以 匹配 小 写字 母 ， 它 总 是 使 用 当前 的 区 
域 设 置 : 


bananas <- c("banana", "Banana", "BANANA") 
str_view(bananas, "banana") 




















banana 
Banana 
BANANA 


str_view(bananas, regex("banana", ignore_case = TRUE)) 
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banana 
Banana 
BANANA 


e multiline = TRUE 可 以 使 得 ^ 和 $ 从 每 行 的 开头 和 末尾 开始 匹配 ， 而 不 是 从 完整 字符 串 
的 开头 和 末尾 开始 匹配 : 


x <- "Line 1\nLine 2\nLine 3" 

str_extract_all(x, "^Line")[[1]] 

#> [31] "Line" 

str_extract_all(x, regex("^Line", multiline = TRUE))[[1]] 
#> [1] "Line" "Line" "Line" 


e comments = TRUE 可 以 让 你 在 复杂 的 正则 表达 式 中 加 入 注释 和 空白 字符 ， 以 便 更 易 理解 。 
匹配 时 会 包 略 空格 和 # 后 面 的 内 容 。 如 果 想 要 匹配 一 个 空格 ， 你 需要 对 其 进行 转 义 : "NN ": 


phone <- regex(" 
WG. # 可 选 的 开 括号 
(\\d{3}) # 地 区 编码 
[)- ]? # 可 选 的 闭 插 号 、 短 划 线 或 空格 
(\\d{3}) # 另外 3 个 数字 
[=l] 2 # 可 选 的 空格 或 短 划 线 
(N d(3)) # 另外 3 个 数字 
", comments = TRUE) 








str_match("514-791-8141", phone) 


#> [,1] [.2] [,3] [,4] 
#> [1,] "514-791-814" "514" "791" "814" 


e dotall = TRUE 可 以 使 得 . 匹配 包括 \n 在 内 的 所 有 字符 。 
除了 regex()， 你 还 可 以 使 用 其 他 3 种 函数 。 


。 fixed() 函数 可 以 按照 字符 串 的 字 节 形式 进行 精确 匹配 ， 它 会 忽略 正则 表达 式 中 的 所 有 
特殊 字符 ,并 在 非常 低 的 层次 上 进行 操作 。 这 样 可 以 让 你 不 用 进行 那些 复杂 的 转 义 操作 ， 
而 且 速 度 比 普通 正则 表达 式 要 快 很 多 。 从 以 下 的 微 基准 测试 可 以 看 出 ， 在 这 个 简单 的 示 
例 中 ， 它 的 速度 差不多 是 普通 正则 表达 式 的 3 倍 : 

microbenchmark: :microbenchmark( 
fixed = str_detect(sentences, fixed("the")), 
regex = str_detect(sentences, "the"), 
times = 20 
) 
#> Unit: microseconds 
#> expr min lq mean median uq max neval cld 
#> fixed 116 117 136 120 125 389 20 a 
#> regex 333 337 346 338 342 467 20 b 


在 匹配 非 英语 数据 时 ， 要 慎 用 fixed() 国 数 。 它 可 能 会 出 现 问 题 ， 因 为 此 时 同一 个 字符 


经 常 有 多 种 表达 方式 。 例 如 ， 定 义 下 的 方式 有 两 种 : 一 种 是 单个 字母 a， 另 一 种 是 a 加 
上 重音 符号 : 
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al <- "\u00e1" 
a2 <- "a\u0301" 
c(a1, a2) 

#> [1] "á" "á" 
al == a2 

#> [1] FALSE 


这 两 个 字母 的 意义 相同 ， 但 因为 定义 方式 不 同 ， 所 以 fixed() 国 数 找 不 到 匹配 。 然 而 ， 
你 可 以 使 用 接 下 来 将 要 介绍 的 col1() 函数 ， 按 照 我 们 使 用 的 字符 比较 规则 来 进行 匹配 : 
str_detect(al, fixed(a2)) 
#> [1] FALSE 
str_detect(al, coll(a2)) 
#> [4] TRUE 


coll() 函数 使 用 标准 排序 规则 来 比较 字符 串 ， 这 在 进行 不 区 分 大 小 写 的 匹配 时 是 非常 
有 效 的 。 注 意 ,可 以 在 coll O 函数 中 设置 locale 参数 ,以 确定 使 用 哪 种 规则 来 比较 字符 。 
遗憾 的 是 ， 世 界 各 地 所 使 用 的 规则 是 不 同 的 ! 

# 这 意味 着 在 进行 不 区 分 大 小 写 的 匹配 时 ， 还 是 需要 知道 不 同 规则 之 间 的 区 别 : 

i = CT VE, Mi en) 

i 

25 8) ara npa asnamun 








str_subset(i, coll("i", ignore_case = TRUE)) 
=i] Te Wen 
str_subset( 

Ls 

coll("i", ignore_case = TRUE, locale = "tr") 
) 
#- TaJ “Te "g" 


fixed() 和 regex() 函数 中 都 有 ignore_case 参数 ， 但 都 无 法 选择 区 域 设 置 ， 它 们 总 是 
使 用 默认 的 区 域 设 置 。 你 可 以 使 用 以 下 代码 查看 默认 区 域 设 置 (我 们 稍 后 会 对 stringi 包 
进行 更 多 介绍 ) : 


stringi::stri_locale_info() 
#> SLanguage 
#> [1] "en" 

#> 

#> $Country 
#> [1] "us" 

#> 

办 > SVariant 

#> [4] "" 

#> 

办 > SName 

#> [1] "en_US" 


coll() 国 数 的 弱点 是 速度 ， 因 为 确定 哪些 是 相同 字符 的 规则 比较 复杂 ， 与 regex() 和 
fixed() 函数 相 比 ，col1() 确实 比较 慢 。 
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在 介绍 str_spLit() 国 数 时 ， 你 已 经 知道 可 以 使 用 boundary() 国 数 来 匹配 边界 。 你 还 可 
以 在 其 他 函数 中 使 用 这 个 函数 : 


x <- "This is a sentence." 
str_view all(x, boundary("word")) 





This is a sentence. 


str_extract_all(x, boundary("word")) 


#> [[1]] 


#> [4] “This” E "a" "sentence" 


练习 
(1) 如 何 找 出 包含 \ 的 所 有 字符 串 ? 分 别 使 用 regex() 和 fixed() 国 数 来 完成 这 个 任务 。 
(2) sentences 数据 集中 最 常见 的 5 个 单词 是 什么 ? 


10.6 正则 表达 式 的 其 他 应 用 


R 基础 包 中 有 两 个 常用 函数 ， 它 们 也 可 以 使 用 正则 表达 式 。 


apropos() 函数 可 以 在 全 局 环境 空间 中 搜索 所 有 可 用 对 象 。 当 不 能 确切 想起 函数 名 称 时 ， 
这 个 函数 特别 有 用 : 

apropos("replace") 

#> [1] "%+replace%" "replace" "replace_na" 


#> [4] "str_replace" "str_replace_all" "str_replace_na" 
#> [7] "theme_replace" 


dir() 函数 可 以 列 出 一 个 目录 下 的 所 有 文件 。dir() 函数 的 patten 参数 可 以 是 一 个 正则 
表达 式 ， 此 时 它 只 返回 与 这 个 模式 相 匹 配 的 文件 名 。 例 如 ， 你 可 以 使 用 以 下 代码 返回 当 
前 目录 中 的 所 有 R Markdown 文件 : 

head(dir(pattern = "\\.Rmd$")) 

#> [1] "communicate-plots.Rmd" "communicate.Rmd" 


#> [3] "datetimes.Rmd" "EDA.Rmd" 
#> [5] "explore.Rmd" "factors.Rmd" 


(如 果 更 喜欢 使 用 *.Rmd 这 样 的 “通配符 "， 你 可 以 通过 glob2rx() 函数 将 其 转换 为 正则 
表达 式 。) 

















10.7 stringi 


stringr 建立 于 stringi 的 基础 之 上 。stringr 非常 容易 学 习 ， 因 为 它 只 提供 了 非常 少 的 函数 ， 
这 些 函 数 是 精 挑 细 选 的 ， 可 以 完成 大 部 分 常用 字符 串 操 作 功 能 。 与 stringr 不 同 ，stringi 的 
设计 思想 是 尽量 全 面 ， 几 乎 包含 了 我 们 可 以 用 到 的 所 有 函数 : stringi 中 有 234 个 函数 ， 而 
stringr 中 只 有 42 个 。 
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如 果 你 发 现 某 些 工作 很 难 使 用 stringr 来 完成 ， 那 么 可 以 考虑 使 用 stringi。 因 为 这 两 个 包 中 











的 函数 的 工作 方式 非常 相似 ， 所 以 你 可 以 很 自然 地 从 stringr 过 渡 到 stringi。 主 要 





级 ;str_ 与 stri 。 


练习 

(1) 找 出 可 以 完成 以 下 操作 的 stringi 函数 。 
a. 计算 单词 的 数量 。 
b. 找 出 重复 字符 串 。 
c， 生 成 随机 文本 。 


(2) 如 何 控制 stri_sort() 国 数 用 来 排序 的 语言 设置 ? 








区 别 是 前 
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第 11 章 


使 用 forcats 处 理 因子 





11.1 简介 
因子 在 R 中 用 于 处 理 分 类 变量 。 分 类 变量 是 在 固定 的 已 知 集合 中 取 值 的 变量 。 当 想 要 以 非 
字母 表 顺 序 显示 字符 向 量 时 ， 也 可 以 使 用 分 类 变量 。 


从 历史 上 看 ， 因 子 远 比 字符 串 更 容易 处 理 。 因 此 ，R 基础 包 中 的 很 多 函数 都 自动 将 字符 
串 转 换 为 因子 。 这 意味 着 因子 经 常 出 现在 并 不 真正 适合 它们 的 地 方 。 好 在 你 不 用 担心 
tidyverse 中 会 出 现 这 种 问题 ， 可 以 将 注意 力 集中 于 因子 能 够 真正 发 挥 作用 的 问题 。 


如 果 想 要 了 解 更 多 有 关 因 子 的 背景 知识 ， 我 们 推荐 你 阅读 一 下 Roger Peng 的 文章 “An 
unauthorized biography”, LAJ% Thomas Lumley 的 文章 “stringsAsFactors = <sigh>”。 


准备 工作 
我 们 将 使 用 forcats 包 来 处 理 因子 ， 这 个 包 提供 了 能 够 处 理 分 类 变量 (其实 就 是 因子 的 另 一 


种 说 法 ) 的 工具 ， 其 中 还 包括 了 处 理 因 子 的 大 量 辅助 函数 。 因 为 forcats 不 是 tidyverse 的 核 
Ü R 包 ， 所 以 需要 手动 加 载 。 


library(tidyverse) 
library(forcats) 


11.2 创建 因子 


假设 我 们 想 要 创建 一 个 记录 月 份 的 变量 : 


x1 <- c("Dec", "Apr", "Jan", "Mar") 


使 用 字符 串 来 记录 月 份 有 两 个 问题 。 
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(1) 月 份 只 有 12 个 取 值 ， 如 果 输 入 错误 ， 那 么 代码 不 会 有 任何 反应 。 


x2 <- c("Dec", "Apr", Jam”, "Mar") 


(2) 其 对 月 份 的 排序 没有 意义 


sort(x1) 
#> [1] "Apr" "Dec" e: INA "Mar" 


你 可 以 通过 使 用 因子 来 解决 以 上 两 个 问题 。 要 想 创建 一 个 因子 ， 必 须 先 创建 有 效 水 平 的 一 
个 列表 : 
month_levels <- c( 


W jan", "Feb", "Mar", "Apr", "May", "Junt, 
Nu U. "Aug", "Sep", net", "Nov", "Dec" 








) 
现在 你 可 以 创建 因子 了 : 


y1 <- factor(x1, levels = month_levels) 

y1 

#> [1] Dec Apr Jan Mar 

#> Levels: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
sort(y1) 

#> [1] Jan Mar Apr Dec 

#> Levels: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 


不 在 有 效 水 平 集合 内 的 所 有 值 都 会 自动 转换 为 NA: 


y2 <- factor(x2, levels = month_levels) 

y2 

#> [1] Dec Apr <NA> Mar 

#> Levels: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 


如 果 想 要 显示 错误 信息 ， 那 么 你 可 以 使 用 readr::parse_factor() 函数 : 


y2 <- parse_factor(x2, levels = month_levels) 
#> Warning: 1 parsing failure. 





#> row col expected actual 
#> 3 -- value in level set Jam 

如 有 果 省 略 了 定义 水 平 的 这 个 步 又， 那么 会 将 按 字 母 顺序 排序 的 数据 作为 水 平 ; 
factor(x1) 


#> [1] Dec Apr Jan Mar 
#> Levels: Apr Dec Jan Mar 


有 时 你 会 想 让 因子 的 顺序 与 初始 数据 的 顺序 保持 一 致 。 在 创建 因子 时 ， 将 水 平 设置 为 
unique(x)， 或 者 在 创建 因子 后 再 对 其 使 用 fct_inorder() 国 数 ， 就 可 以 达到 这 个 目的 ; 

f1 <- factor(x1, levels = unique(x1)) 

fi 


#> [1] Dec Apr Jan Mar 
#> Levels: Dec Apr Jan Mar 








i 
HG 





f2 <- x1 %>% factor() %>% fct_inorder() 
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f2 
#> [1] Dec Apr Jan Mar 
#> Levels: Dec Apr Jan Mar 


如 果 想 要 直接 访问 因子 的 有 效 水 平 集合 ， 那 么 可 以 使 用 levels() 国 数 : 


levels(f2) 
#> [1] tag” "Apr" "Jan" "Mar" 


11.3 综合 社会 调查 


eo \ 讨 论 forcats: :gss_cat 数据 集 ， 该 数据 集 是 综合 社会 调查 数据 的 一 
份 抽 样 ， 综 合 社 会 调查 是 美国 芝加哥 大 学 的 独立 研究 组 织 NORC 进行 的 一 项 长 期 美国 社会 
调查 。 — 我 们 挑选 了 一 些 变量 放 在 gss_cat 数据 集中 ， 它 们 可 以 
说 明 处 理 因 子 时 经 常 遇 到 的 一 些 问题 : 











gss_cat 

办 > # A tibble: 21,483 x 9 

#> year marital age race rincome 
Ms <int> <fetrs <ints <fetr> <fëtr> 
#> 1 2000 Never married 26 White $8000 to 9999 
#> 2 2000 Divorced 48 White $8000 to 9999 
#> 3 2000 Hidowed 67 HWhite Not applicable 
#> 4 2000 Never married 39 White Not applicable 
#> 5 2000 Divorced 25 White Not applicable 
#> 6 2000 Married 25 White $20000 - 24999 
#> # ... with 2.148e+04 more rows, and 4 more variables: 


( 记 住 ， 因 为 这 个 数据 集 是 由 一 个 R 包 提供 的 ， 所 以 你 可 以 使 用 ?gss_cat 获取 关于 变量 的 
更 多 信息 。) 


当 因 子 保存 在 tibble 中 时 ， 其 水 平 不 是 很 容易 看 到 的 。 查 看 因子 水 平 的 一 种 方法 是 使 用 
count() KZ: 








gss_cat %>% 
count(race) 

#> # A tibble: 3 x 2 
#> race n 

#> <fetrs <ints 

#> 1 Other 1959 
#> 2 Black 3129 
#> 3 White 16395 


或 者 使 用 条 形 


ggplot(gss_cat, aes(race)) + 
geom_bar() 








R 











15000 - 


10000 - 


count 


5000 - 





Other Black White 
race 


默认 情况 下 ，ggplot2 会 丢弃 没有 任何 数据 的 那些 水 平 ， 你 可 以 使 用 以 下 代码 来 强制 显示 这 
些 水 平 : 


ggplot(gss_cat, aes(race)) + 
geom bar() + 
scale x discrete(drop = FALSE) 


15000 - 


10000- 


count 


5000 


0- E [| | 
' $ ' ' 
Other Black White Not applicable 
race 





kb k BDE 41 AI, RERA HD X ra rh, RIRE, dplyr 中 还 没有 
drop 这 个 选项 ， 但 很 快 就 会 有 了 。 


在 使 用 因子 时 ， 最 常用 的 两 种 操作 是 修改 水 平 的 顺序 和 水 平 的 值 。 下 一 节 将 详细 介绍 水 平 
值 的 修改 。 


11.4 ”修改 因子 水 平 


比 修改 因子 水 平顺 序 更 强大 的 操作 是 修改 水 平 的 值 。 修 改 水 平 不 仅 可 以 使 得 图 形 标签 更 美 
观 清 晰 ， 以 满足 出 版 发 行 的 要 求 ， 还 可 以 将 水 平 汇集 成 更 高 层次 的 显示 。 修 改 水 平 最 常 
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用 、 最 强大 的 工具 是 fct_recode() 国 数 ， 它 可 以 对 每 个 水 平 进行 修改 或 重新 编码 。 例 如 ， 
我 们 看 一 下 gss_cat$partyid: 


gss_cat %>% count(partyid) 
#> # A tibble: 10 x 2 


#> partyid n 
#> <fctr> <int> 
#> 1 No answer 154 
#> 2 Don't know 1 
#> 3 Other party 393 
#> 4 Strong republican 2314 
#> 5 Not str republican 3032 
#> 6 Ind,near rep 1791 


#> # ... with 4 more rows 


对 水 平 的 描述 太 过 简单 ， 而 且 不 一 致 。 我 们 将 其 修改 为 较为 详细 的 排比 结构 ; 


gss_cat %>% 
mutate(partyid = fct_recode(partyid, 


"Republican, strong" = "Strong republican", 
"Republican, weak" = "Not str republican", 
"Independent, near rep" = "Ind,near rep", 
"Independent, near dem" = "Ind,near dem", 
"Democrat, weak" = "Not str democrat", 
"Democrat, strong" = "Strong democrat" 
)) %>% 
count(partyid) 
#> # A tibble: 10 x 2 
#> partyid n 
#> <fctr> <int> 
#> No answer 154 
#> Don't know 1 
#> Other party 393 
#> Republican, strong 2314 


ndependent, near rep 1791 


1 

2 

3 

4 

办 > 5 Republican, weak 3032 
6 I 

# ... with 4 more rows 


fct_recode() 会 让 没有 明确 提 及 的 水 平 保持 原样 ， 如 果 不 小 心 修 改 了 一 个 不 存在 的 水 平 ， 
那么 它 也 会 给 出 警告 。 
你 可 以 将 多 个 原水 平 赋 给 同一 个 新 水 平 ， 这 样 就 可 以 合并 原来 的 分 类 : 


gss_cat %>% 
mutate(partyid = fct_recode(partyid, 








"Republican, strong" = "Strong republican", 
"Republican, weak" = "Not str republican", 
"Independent, near rep" = "Ind,near rep", 
"Independent, near dem" = "Ind,near dem", 
"Democrat, weak" = "Not str democrat", 
"Democrat, strong" = "Strong democrat", 
"Other" = "No answer", 
"Other" = "Don't know", 
"Other" = "Other party" 

)) %>% 





count(partyid) 
#> # A tibble: 8 x 2 


#> partyid n 
#> <fctr> <int> 
#> 1 Other 548 
#> 2 Republican, strong 2314 
#> 3 Republican, weak 3032 
#> 4 Independent, near rep 1791 
WS Independent 4119 
#> 6 Independent, near dem 2499 
#> # ... with 2 more rows 

















使 用 这 种 操作 时 一 定 要 小 心 : 如 果 合 并 了 原本 不 同 的 分 类 ， 那 么 就 会 产生 误导 性 的 结果 。 
如 果 想 要 合并 多 个 水 平 ， 那 么 可 以 使 用 fct_recode() 国 数 的 变 体 fct_collapse() 函数 。 对 于 每 





个 新 水 平 ， 你 都 可 以 提供 一 个 包含 原水 平 的 向 量 : 


gss_cat %>% 


mutate(partyid = fct_collapse(partyid, 


other = c("No answer", "Don't know", "Other party"), 


rep = c("Strong republican", "Not str republican"), 


ind = c("Ind,near rep", "Independent", "Ind,near dem"), 


dem = c("Not str democrat", "Strong democrat") 


)) %>% 
count(partyid) 
#> # A tibble: 4 x 2 
#> partyid n 


#> <fctr> <int> 
#> 1 other 548 
#> 2 rep 5346 
#> 3 ind 8409 
#> 4 dem 7180 


练习 


美国 民主 党 、 共 和 党 和 中 间 派 的 人 数 比 例 是 如 何 随 时 间 而 变化 的 ? 
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第 12 章 


使 用 lubridate 处 理 日 期 和 时 间 





12.1 简介 

本 章 将 介绍 如 何在 R 中 处 理 日 期 和 时 间 。 乍 看 起 来 ， 日 期 和 时 间 非 常 容易 。 日 常生 活 的 每 
时 每 刻 都 在 使 用 它们 ， 而 且 它 们 似乎 也 不 会 引起 很 多 混淆 。 但 是 ， 随 着 对 日 期 和 时 间 了 解 
得 越 来 越 多 ， 我 们 就 会 越 来 越发 现 其 复杂 之 处 。 我 们 先 热 热身 ， 思 考 以 下 3 个 似乎 非常 简 
单 的 问题 。 

。 每 一 年 都 是 365 天 吗 ? 

。 每 一 天 都 是 24 小 时 吗 ? 

° 每 分 钟 都 是 60 秒 吗 ? 

你 肯定 知道 不 是 每 一 年 都 是 365 天 ， 但 你 知道 确定 某 年 是 否 为 国 年 的 完整 规则 (包含 3 个 
部 分 ) 吗 ? 你 应 该 知道 世界 上 很 多 地 区 使 用 夏 时 制 ， 因 此 有 些 天 是 23 个 小 时 ， 有 些 天 则 
是 25 个 小 时 。 但 你 可 能 根本 不 知道 ， 有 些 分 钟 是 61 秒 ， 因 为 地 球 自转 正在 逐渐 变 慢 ， 所 
以 我 们 有 时 候 要 增加 1 AEE., 


日 期 和 时 间 非 常 复杂 ， 因 为 它们 要 兼顾 两 种 物理 现象 《地球 的 自转 以 及 围绕 太阳 的 公转 ) 
和 一 系列 地 理 政治 现象 (包括 月 份 、 时 区 和 夏 时 制 )。 虽 然 本 章 不 会 介绍 关于 日 期 和 时 间 
的 所 有 细 方 ， 但 提供 了 处 理 日 斯 和 时 间 的 实用 技能 的 坚实 基础 ， 以 帮助 你 解决 常见 的 有 关 
日 期 和 时 间 的 分 析 问 题 。 


准备 工作 

本 章 主 要 讨论 lubridate 包 ， 它 可 以 使 得 R 对 日 期 和 时 间 的 处 理 更 加 容易 。lubridate 不 是 
tidyverse 的 核心 R 包 ， 因 为 具有 在 处 理 日 期 和 时 间 时 才 需 要 它 。 我 们 还 需要 将 nycflights13 
包 作 为 练习 数据 。 
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library(tidyverse) 


library(lubridate) 
library(nycflights13) 


12.2 创建 日 期 或 时 间 


表示 日 期 或 时 间 的 数据 有 3 种 类 型 。 
日 期 : 在 tibble 中 显示 为 <date>。 
时 间 : 一 天 中 的 某 个 时 刻 ， 在 tibble 中 显示 为 <time>. 
日 期 时 间 : 可 以 唯一 标识 某 个 时 刻 (通常 精确 到 秒 ) 的 日 期 加 时 间 ， 在 tibble 中 显示 为 
<dttm>。 而 这 种 类 型 在 R 语言 的 其 他 地 方 称 为 POSIXct， 但 我 们 认为 这 个 名 称 不 是 非常 
合适 。 
在 本 章 中 ， 我 们 将 重点 讨论 日 期 和 日 期 时 间 型 数据 ， 因 为 R 中 没有 保存 时 间 的 原生 类 。 如 
果 需 要 处 理 时 间 数 据 ， 那 么 你 可 以 使 用 hms 包 。 
只 要 能 够 满足 需要 ， 你 就 应 该 使 用 最 简单 的 数据 类 型 。 这 意味 着 只 要 能 够 使 用 日 期 型 数 
据 ， 那 么 就 不 应 该 使 用 日 期 时 间 型 数据 。 日 期 时 间 型 数据 要 复杂 得 多 ， 因 为 它 需 要 处 理 时 
区 ， 我 们 会 在 本 章 末 尾 继续 讨论 这 个 问题 。 


要 想得到 当前 日 期 或 当前 日 期 时 间 ， 你 可 以 使 用 today() 或 now() 函数 : 


today() 

#> [1] "2016-10-10" 

now() 

#> [1] "2016-10-10 15:19:39 PDT" 


除 此 之 外 ， 以 下 3 种 方法 也 可 以 创建 日 期 或 时 间 。 
通过 字符 串 创 建 。 
通过 日 期 时 间 的 各 个 成 分 创建 。 
通过 现 有 的 日 期 时 间 对 象 创建 。 


接 下 来 我 们 将 分 别 介绍 这 3 种 方法 。 


12.2.1 通过 字符 串 创建 


日 期 时 间 数 据 经 常用 字符 串 来 表示 。8.3.4 节 中 已 经 介绍 了 将 字符 串 解析 为 日 期 时 间 数 据 
的 一 种 方法 。 通 过 字符 串 创 建 日 期 时 间 数据 的 另 一 种 方法 是 使 用 lubridate 中 提供 的 辅助 函 
数 。 如 果 确 定 了 各 个 组 成 部 分 的 顺序 ， 那 么 这 些 国 数 可 以 自动 将 字符 串 转 换 为 日 期 时 间 格 
式 。 要 想 使 用 这 些 函 数 ， 需 要 先 确 定年 、 月 和 日 在 日 期 数据 中 的 顺序 ， 然 后 按照 同样 的 顺 
序 排列 y、m 和 d， 这 样 就 可 以 组 成 能 够 解析 日 期 的 lubridate 函数 名 称 。 例 如 : 

ymd("2017-01-31") 

#> [1] "2017-01-31" 

mdy("January 31st, 2017") 

#> [1] "2017-01-31" 
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dmy("31-Jan-2017") 
#> [1] "2017-01-31" 





这 些 国 数 也 可 以 接受 不 带 引 号 的 数值 。 这 是 创建 单个 日 期 时 间 对 象 的 最 简 
期 时 间 数 据 时 ， 你 就 可 以 使 用 这 种 方法 。ynd() 是 个 非常 简单 明了 的 函数 : 





ymd(20170131) 
#> [1] "2017-01-31" 








ymd() 和 类 似 的 其 他 函数 可 以 创建 日 期 。 要 想 创建 日 期 时 间 型 数据 ， 可 以 
E 5 5 Oí j 数 了 : 





ymd_hms("2017-01-31 20:11:59") 
#> [1] "2017-01-31 20:11:59 UTC" 
mdy_hm("01/31/2017 08:01") 

#> [1] "2017-01-31 08:01:00 UTC" 


通过 添加 一 个 时 区 参数 ， 你 可 以 将 一 个 日 期 强制 转换 为 日 期 时 间 : 


12. 





ymd(20170131, tz = "UTC") 
#> [1] "2017-01-31 UTC" 


2.2 ”通过 各 个 成 分 创建 


除了 单个 字符 串 ， 日 期 时 间 数 据 的 各 个 成 分 还 经 常 分 布 在 表格 的 多 个 列 中 。 


KH 


EHI: 





flights %>% 
select(year, month, day, hour, minute) 
#> # A tibble: 336,776 x 5 
#> year month day hour minute 
#> <int> <int> <int> <dbl> <db1> 


#> 1 2013 1 1 5 15 
#> 2 2013 1 5 29 
#> 3 2013 1 1 5 40 
#> 4 2013 1 1 5 45 
#> 5 2013 1 1 6 0 
#6: -2013 J 1 5 58 
办 > # ... with 3.368e+05 more rows 




















如 果 想 要 按照 这 种 表示 方法 来 创建 日 期 或 时 间 ， 可 以 使 用 make_date() MK 
用 make_datetime() 函数 创建 日 期 时 间 : 


flights %>% 
select(year, month, day, hour, minute) %>% 
mutate( 
departure = make_datetime(year, month, day, hour, minute) 
) 
#> # A tibble: 336,776 x 6 


#> year month day hour minute departure 
#> <ints <int> <int> <dbl> <dbl> <dttm> 
#> 1 2013 1 1 5 15 2013-01-01 05:15:00 
#> 2 2013 1 1 5 29 2013-01-01 05:29:00 
#> 3 2013 1 1 5: 40 2013-01-01 05:40:00 


方法 ， 在 筛选 日 


在 后 面 加 一 个 下 


航班 数据 就 是 


函数 创建 日 期 ,使 





#> 4 2013 1 f 5 45 2013-01-01 05:45:00 


#> 5 2013 1 1 6 0 2013-01-01 06:00:00 
#> 6 2013 1 1 5 58 2013-01-01 05:58:00 
#> # ... with 3.368e+05 more rows 


我 们 对 flights 中 的 4 个 时 间 列 进行 相同 的 操作 。 因 为 时 间 的 表示 方法 有 点 奇怪 ， 所 以 我 


们 先 使 用 模 运 算 将 小 时 成 分 与 分 钟 成 分 分 离 。 一 旦 建立 了 日 期 时 间 变 
余部 分 使 用 这 些 变 量 进行 讨论 : 


make_datetime 100 <- function(year, month, day, time) í 
make_datetime(year, month, day, time %/% 100, time %% 100) 
} 


flights_dt <- flights %>% 
filter(!is.na(dep_time), !is.na(arr_time)) %>% 
mutate( 
dep_time = make_datetime_100(year, month, day, dep_time), 
arr_time = make_datetime_100(year, month, day, arr_time), 
sched_dep_time = make_datetime_100( 
year, month, day, sched_dep_time 
)， 
sched_arr_time = make_datetime_100( 
year，month，day，sched_arr_time 
) 
) %>% 
select(origin, dest, ends_with("delay"), ends_with("time")) 


flights_dt 

#> # A tibble: 328,063 x 9 

#> origin dest dep_delay arr_delay dep_time 
#> <chr> <chr> <dbl> <dbl> <dttm> 
#> 1 EWR IAH 2 11 2013-01-01 05:17:00 
#> 2 LGA IAH 4 20 2013-01-01 05:33:00 
#> 3 JFK MIA 2 33 2013-01-01 05:42:00 
#> 4 JFK BQN -1 -18 2013-01-01 05:44:00 
#> 5 LGA ATL -6 -25 2013-01-01 05:54:00 
#> 6 EWR ORD -4 12 2013-01-01 05:54:00 
#> # ... with 3.281e+05 more rows, and 4 more variables: 
办 > # sched dep time <dttm>, arr_time <dttm>, 

办 > # sched arr_time <dttm>, air_time <dbl> 


我 们 可 以 使 用 这 些 数据 做 出 一 年 间 出 发 时 间 的 可 视 化 分 布 : 


flights_dt %>% 
ggplot(aes(dep_time)) + 
geom_freqpoly(binwidth = 86400) # 86400fb = 1 天 





量 ， 我 们 就 在 本 章 剩 
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1000 - 


750- 


count 


500- 


250= 


0- 
Jan 2013 Apr 2013 Jul 2013 Oct 2013 Jan 2014 
dep_time 


或 者 一 天 内 的 分 布 : 


flights_dt %>% 
fiLLter(dep_time < ymd(20130102)) %>% 
ggplot(aes(dep_time)) + 
geom_freqpoly(binwidth = 600) # 600fb = 10 分 钟 


count 


Jan ot 06:00 Jan ot 12:00 Jan ot 18:00 Jan 02 00:00 
dep_time 


注意 ， 当 将 日 期 时 间 型 数据 作为 数值 使 用 时 (比如 在 直方 图 中 )，1 表示 1 秒 ， 因 此 分 箱 宽 
度 86 400 才能 够 表示 1 天 。 对 于 日 期 型 数据 ，1 则 表示 1 天 。 


12.2.3 通过 其 他 类 型 数据 创建 


有 时 你 需要 在 日 期 时 间 型 数据 和 日 期 型 数据 之 间 进 行 转换 ， 这 正 是 as_datetime() 和 as_ 
date( ) 函数 的 功能 : 


as_datetime(today()) 
#> [1] "2016-10-10 UTC" 
as_date(now()) 

#> [1] "2016-10-10" 











有 时 我 们 会 使 用 “Unix HAE” (BH 1970-01-01) 的 偏 移 量 来 表示 日 期 时 间 。 如 果 偏 移 
量 单位 是 秒 ， 那 么 就 使 用 as_datetime() 函数 来 转换 ， 如 果 偏 移 量 单位 是 天 ， 则 使 用 as_ 
date() 国 数 来 转换 : 

as_datetime(60 * 60 * 10) 

办 > [1] "1970-01-01 10:00:00 UTC" 

as_date(365 * 10 + 2) 

#> [1] "1980-01-01" 




















12.2.4 练习 

(1) 如 果 解 析 包 含 无 效 日 期 的 一 个 字符 串 ， 那 么 会 发 生 什么 情况 ? 
ymd(c("2010-10-10", "bananas")) 

(2) today() 函数 中 的 tzone 参数 的 作用 是 什么 ? 为 什么 它 很 重要 ? 

(3) 使 用 恰当 的 lubridate 函数 来 解析 以 下 每 个 日 期 。 





<- "January 1, 2010" 
<- "2015-Mar-07" 

d3 <- "06-Jun-2017" 
<- c("August 19 (2015)"; “July 1 (2015)") 
<- "12/30/14" # 2014412 H30 H 


12.3 日 期 时 间 成 分 


现在 你 已 经 知道 了 如 何 将 日 期 时 间 型 数据 保存 在 R 的 相应 数据 结构 中 。 接 下 来 我 们 研究 
一 下 能 够 对 这 些 数 据 进 行 何 种 处 理 。 本 节 将 重点 介绍 获取 和 设置 日 期 时 间 成 分 的 访问 器 函 
数 。 下 一 布 将 介绍 如 何 对 日 期 时 间 进 行 数学 运算 。 


12.3.1 获取 成 分 


如 果 想 要 提取 出 日 期 中 的 独立 成 分 ， 可 以 使 用 以 下 访问 器 函数 : year(). month(). mday() 
(一 个 月 中 的 第 几 天 )、yday() (一 年 中 的 第 几 天 )、wday() (一 周 中 的 第 几 天 )、hour()、 
minute() 和 second(): 























datetime <- ymd_hms("2016-07-08 12:34:56") 


year(datetime) 
#> [1] 2016 
month(datetime) 
#> [1] 7 
mday(datetime) 
#> [4] 8 


yday(datetime) 
#> [1] 190 
wday(datetime) 
#> [1] 6 
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对 于 month() 和 wday() 函数 ， 你 可 以 设置 label = TRUE 来 返回 月 份 名 称 和 星期 数 的 缩写 ， 
还 可 以 设置 abbr = FALSE 来 返回 全 名 : 


month(datetime, label = TRUE) 

#> [1] Jul 

#> 12 Levels: Jan < Feb < Mar < Apr < May < Jun < ... < Dec 
wday(datetime, label = TRUE, abbr = FALSE) 

#> [1] Friday 

#> 7 Levels: Sunday < Monday < Tuesday < ... < Saturday 


通过 wday() 国 数 ， 我 们 可 以 知道 在 工作 日 出 发 的 航班 要 多 于 周末 出 发 的 航班 : 


flights_dt %>% 
mutate(wday = wday(dep_time, label = TRUE) ) %>% 
ggplot(aes(x = wday)) + 








geom_bar() 

50000 - 

40000 - 
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= 
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10000 - 
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如 有 果 查 看 一 小 时 内 每 分 钟 的 平均 出 发 延误 ， 我 们 可 以 发 现 一 个 有 趣 的 模式 。 似 乎 在 第 
20~30 分 钟 和 第 50~60 分 钟 内 出 发 的 航班 的 延误 时 间 远 远 低 于 其 他 时 间 出 发 的 航班 ! 


flights_dt %>% 

mutate(minute = minute(dep_time)) %>% 

group_by(minute) %>% 

summarize( 
avg_delay = mean(arr_delay, na.rm = TRUE), 
n = n()) %>% 

ggplot(aes(minute, avg_delay)) + 
geom_line() 








avg_delay 


0 20 40 60 
minute 


有 趣 的 是 ， 如 果 检 查 计划 出 发 时 间 ， 我 们 就 会 发 现 其 中 没有 这 么 明显 的 模式 : 


sched_dep <- flights_dt %>% 
mutate(minute = minute(sched_dep_time)) %>% 


group_by(minute) %>% 


summarize( 
avg_delay = mean(arr_delay, na.rm = TRUE), 


= nt) 


ggplot(sched_dep, aes(minute, avg_delay)) + 
geom_line() 


avg_delay 


0 20 40 60 
minute 
那么 ， 为 什么 我 们 会 在 实际 的 出 发 时 间 中 看 到 这 种 模式 呢 ? 好 吧 ， 与 人 工 收集 的 很 多 数据 
一 样 ， 航 班 数据 也 严重 倾向 于 在 “美妙 的 ”时 间 出 发 的 那些 航班 。 只 要 处 理 的 数据 涉及 人 
工 判断 ， 那 么 你 就 要 对 这 种 模式 保持 警惕 ! 
ggplot(sched_dep, aes(minute, n)) + 
geom_line() 
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60000 - 


40000 - 


20000 - 


minute 


12.3.2 $A 


绘制 独立 日 期 成 分 的 另 一 种 方法 是 ， 通 过 floor_date(), round_date() 和 ceiling_date() 
函数 将 日 期 舍 入 到 临近 的 一 个 时 间 单 位 。 这 些 函 数 的 参数 都 包括 一 个 待 调整 的 时 间 向 量 ， 
以 及 时 间 单 位 名 称 ， 函 数 会 将 这 个 向 量 舍 下 、 入 上 或 四 舍 五 入 到 这 个 时 间 单 位 。 例 如 ， 以 
下 代码 可 以 绘制 出 每 周 的 航班 数量 : 


flights_dt %>% 
count(week = floor_date(dep_time, "week")) %>% 
ggplot(aes(week, n)) + 
geom_line() 


6000 - 


4000 - 


3000 - 


Jan 2013 Apr 2013 Jul 2013 Oct 2013 Jan 2014 
week 


计算 舍 入 日 斯 和 未 舍 入 日 期 间 的 差别 是 非常 有 用 的 。 


12.3.3 ”设置 成 分 
你 还 可 以 使 用 每 个 访问 器 函数 来 设置 日 期 时 间 中 的 成 分 : 





(datetime <- ymd_hms("2016-07-08 12:34:56")) 
#> [1] "2016-07-08 12:34:56 UTC" 


year(datetime) <- 2020 
datetime 


#> [1] "2020-07-08 12:34:56 UTC" 
month(datetime) <- 01 
datetime 


#> [1] "2020-01-08 12:34:56 UTC" 
hour (datetime) <- hour(datetime) + 1 


除了 原 地 修改 ， 你 还 可 以 通过 update() 函数 创建 一 个 新 日 期 时 间 。 这 样 也 可 以 同时 设置 多 
个 成 分 : 


update(datetime, year = 2020, month = 2, mday = 2, hour = 2) 
#> [1] "2020-02-02 02:34:56 UTC" 


如 有 果 设 置 的 值 过 大 ， 那 么 可 以 自动 向 后 滚动 : 


ymd("2015-02-01") %>% 
update(mday = 30) 

#> [1] "2015-03-02" 

ymd("2015-02-01") %>% 
update(hour = 400) 

#> [1] "2015-02-17 16:00:00 UTC" 


你 可 以 使 用 update) 函数 来 显示 这 一 年 中 所 有 航班 的 出 发 时 间 在 一 天 内 的 分 布 : 


flights_dt %>% 
mutate(dep_hour = update(dep_time, yday = 1)) %>% 
ggplot(aes(dep_hour)) + 
geom_freqpoly(binwidth = 300) 


3000- 


2000- 


count 


1000- 


0- 


Jan 01 00:00 Jan 01 06:00 Jan 01 12:00 Jan 01 18:00 Jan 02 00:0C 
dep_hour 


将 日 期 中 较 大 的 成 分 设 定 为 常数 是 探索 其 中 较 小 成 分 模式 的 一 种 有 效 手段 。 





使 用 lubridate 处 理 日 期 和 时 间 | 169 


12.3.4 ”练习 

(1) 在 一 年 的 范围 内 ， 航 班 时 间 在 一 天 中 的 分 布 是 如 何 变化 的 ? 

(2) 比较 dep_time, sched_dep_time 和 dep_detay。 它 们 是 一 致 的 吗 ? 解释 一 下 你 的 结论 。 

(3) 比较 航班 出 发 时 间 与 到 达 时 间 之 间 的 间隔 和 atr_time。 解 释 一 下 你 的 结论 。( 提 示 : 考 
虐 一 下 机 场所 在 地 点 。) 

(4) 平 均 延 误 时 间 在 一 天 范围 内 是 如 何 变化 的 ?应 该 使 用 dep_time 还 是 sched_dep_time ? 
为 什么 ? 

(5) 如 果 想 要 将 延误 的 几率 降 至 最 低 ， 那 么 应 该 在 星期 几 搭乘 航班 ? 

(6) 什么 因素 使 得 diamonds$carat 和 fLightsssched_dep_time 的 分 布 很 相似 ? 


(7) 确认 假设 : 在 第 20-30 分 钟 和 第 50~60 分 钟 内 ， 航 班 能 提前 起 飞 的 原因 是 其 他 航班 提前 
EKT. ER: 创建 一 个 二 值 变量 来 表明 航班 是 否 有 延误 。 


12.4 时 间 间 隔 


接 下 来 你 将 学 习 如 何 对 日 期 进行 数学 运算 ， 甚 中 包括 减法 、 加 法 和 除法 。 本 节 将 介绍 3 种 
用 于 表示 时 间 间 隔 的 重要 类 。 


时 期 : 以 秒 为 单位 表示 一 段 精 确 的 时 间 。 
阶段 : 表示 由 人 工 定义 的 一 段 时 间 ， 如 几 周 或 几 个 月 。 
区 间 : 表示 从 起 点 到 终点 的 一 段 时 间 。 


12.4.1 时 期 
在 R 中 ， 如 果 将 两 个 日 期 相 减 ， 那 么 你 会 得 到 不 同 的 对 象 


# HadLey 多 大 了 ? 

h_age <- today() - ymd(19791014) 
h_age 

#> Time difference of 13511 days 


表示 时 间 差 别 的 对 象 记录 时 间 间 隔 的 单位 可 以 是 秒 、 分 钟 、 小 时 、 日 或 周 。 因 为 这 种 模 核 
两 可 的 对 象 处 理 起 来 非常 困难 ， 所 以 lubridate 提供 了 总 是 使 用 秒 为 单位 的 另 一 种 计时 对 


as.duration(h_age) 
#> [1] "1167350400s (~36.99 years)" 


可 以 使 用 很 多 方便 的 构造 函数 来 创建 时 期 : 


dseconds(15) 

jo [4] "155" 

dminutes(10) 

#> [1] "600s (~10 minutes)" 
dhours(c(12, 24)) 
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#> [1] "43200s (~12 hours)" "86400s (~1 days)" 
ddays(0:5) 

#> [1] "0s" "86400s (~1 days)" 

#> [3] "172800s (~2 days)" "259200s (~3 days)" 
#> [5] "345600s (~4 days)" "432000s (~5 days)" 
dweeks(3) 

#> [1] "1814400s (~3 weeks)" 

dyears(1) 

#> [1] "31536000s (~52.14 weeks)" 


时 期 总 是 以 秒 为 单位 来 记录 时 间 间 隔 。 使 用 标准 比率 (1 分 钟 为 60 #b. 1 小 时 为 60 分 钟 、 
1 天 为 24 小时、1 周 为 7 天 、1 年 为 365 天 ) 将 分 钟 、 小 时 、 日 、 周 和 年 转换 为 秒 ， 从 而 
建立 具有 更 大 值 的 对 象 。 


可 以 对 时 期 进行 加 法 和 乘法 操作 : 


2 * dyears(1) 

#> [1] "63072000s (~2 years)" 
dyears(1) + dweeks(12) + dhours(15) 
#> [1] "38847600s (-1.23 years)" 


时 期 可 以 和 日 期 型 数据 相 加 或 相 减 : 


tomorrow <- today() + ddays(1) 
Last_year <- today() - dyears(1) 


然而 ， 因 为 时 期 表示 的 是 以 秒 为 单位 的 一 段 精确 时 间 ， 所 以 有 时 你 会 得 到 意 想不到 的 结果 : 


one_pm <- ymd_hms( 
"2016-03-12 13:00:00", 
tz = "America/New_York" 


) 





one_pm 

#> [1] "2016-03-12 13:00:00 EST" 
one_pm + ddays(1) 

#> [1] "2016-03-13 14:00:00 EDT" 


为 什么 3 月 12 日 下 午 1 点 的 1 天 后 变 成 了 3 月 13 日 的 下 午 2 Fa? 如 果 仔 细 观 察 ， 你 就 会 


发 现时 区 发 生 了 变化 。 因 为 夏 时 制 ，3 月 12 日 只 有 23 个 小 时 ， 因 此 如 果 我 们 加 上 一 整 天 
的 秒 数 ， 那 么 就 会 得 到 一 个 不 正确 的 时 间 。 


12.4.2 ”阶段 


为 了 解决 这 个 问题 ，lubridate 提供 了 阶段 对 象 。 阶 段 也 是 一 种 时 间 间 隔 ， 但 它 不 以 秒 为 单 
位 ， 相反 ， 它 使 用 “人 工 ” 时 间 ， 比 如 日 和 月 。 这 使 得 它们 使 用 起 来 更 加 直观 : 

one_pm 

#> [1] "2016-03-12 13:00:00 EST" 

one_pm + days(1) 

#> [1] "2016-03-13 13:00:00 EDT" 


和 时 期 一 样 ， 我 们 也 可 以 使 用 很 多 友好 的 构造 函数 来 创建 阶段 : 
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seconds(15) 

Ws [4] "155" 

minutes(10) 

#> [1] "10M 0S" 

hours(e(42, 24)) 

#> [1] "12H OM OS" "24H OM 0S" 

days(7) 

#> [1] "Zd OH OM 0S" 

months(1:6) 

#> [1] "1m Od OH OM OS" "2m Od OH OM OS" "3m Od OH OM 0S" 
#> [4] "4m Od OH OM OS" "5m Od OH OM OS" "6m Od OH OM 0S" 
weeks(3) 

#> [1] "21d OH OM 0S" 

years(1) 

#> [1] "1y Om Od OH OM 0S" 


可 以 对 阶段 进行 加 法 和 乘法 操作 : 


10 * (months(6) + days(1)) 

#> [1] "60m 10d OH OM 0S" 
days(50) + hours(25) + minutes(2) 
#> [1] "50d 25H 2M 0S" 


当然 ， 阶 段 可 以 和 日 期 相 加 。 与 时 期 相 比 ， 阶 段 更 容易 符合 我 们 的 预期 : 


# E 

ymd("2016-01-01") + dyears(1) 
#> [1] "2016-12-31" 
ymd("2016-01-01") + years(1) 
#> [1] "2017-01-01" 


# 夏 时 制 

one_pm + ddays(1) 

#> [1] "2016-03-13 14:00:00 EDT" 
one_pm + days(1) 

#> [1] "2016-03-13 13:00:00 EDT" 


下 面 我 们 使 用 阶段 来 解决 与 航班 日 期 有 关 的 一 个 怪 现 象 。 有 些 飞 机 似乎 在 从 纽约 市 起 飞 前 
就 到 达 了 目的 地 : 


flights_dt %>% 
filter(arr_time < dep_time) 
#> # A tibble: 10,633 x 9 


#> origin dest dep_delay arr_delay dep_time 
#> <chr> <chr> <dbl> <dbl> <dttm> 
#> 1 EWR BON 9 -4 2013-01-01 19:29:00 
#> 2 JFK DFW 59 NA 2013-01-01 19:39:00 
#> 3 EWR TPA -2 9 2013-01-01 20:58:00 
#> 4 EWR SJU -6 -12 2013-01-01 21:02:00 
#> 5 EWR SFO 11 -14 2013-01-01 21:08:00 
#> 6 LGA FEL -10 -2 2013-01-01 21:20:00 
#> # ... with 1.063e+04 more rows, and 4 more variables: 
办 > # sched dep time <dttm>, arr_time <dttm>, 

办 > # sched arr_time <dttm>, air_time <dbl> 








这 些 都 是 过 夜 航班 。 我 们 使 用 了 同一 种 日 期 来 表示 出 发 时 间 和 到 达 时 间 ， 但 这 些 航 班 是 在 
第 二 天 到 达 的 。 将 每 个 过 夜 航班 的 到 达 时 间 加 上 一 个 days(1) ， 就 可 以 解决 这 个 问题 了 : 
flights_dt <- flights_dt %>% 
mutate( 
overnight = arr_time < dep_time, 
arr_time = arr_time + days(overnight * 1), 
sched_arr_time = sched_arr_time + days(overnight * 1) 


) 
这 样 一 来 ， 航 班 数据 就 符合 常理 了 : 


flights_dt %>% 
filter(overnight, arr_time < dep_time) 
#> # A tibble: 0 x 10 
办 > # ... with 10 variables: origin <chr>, dest <chr>, 
办 > # dep delay <dbl>, arr_delay <dbl>, dep_time <dttm>, 
办 > # sched dep time <dttm>, arr_time <dttm>， 
#> # sched arr_time <dttm>, air_time <dbl>, overnight <lgl> 


12.4.3 区间 


显然 ，dyears(1) / ddays(365) 应 该 返回 1， 因 为 时 期 总 是 以 秒 来 表示 的 ， 表 示 1 年 的 时 
期 就 定义 为 相当 于 365 天 的 秒 数 。 
那么 years(1) / days(1) 应 该 返回 什么 呢 ? 如 果 年 份 是 2015 年 ， 那 么 结果 就 是 365， 但 如 
果 年 份 是 2016 年 ， 那 么 结果 就 是 366 1 没有 足够 的 信息 让 lubridate 返回 一 个 明确 的 结果 。 
lubridate 的 做 法 是 给 出 一 个 估计 值 ， 同 时 给 出 一 条 警告 ; 

years(1) / days(1) 

#> estimate only: convert to intervals for accuracy 

#> [1] 365 
如 果 需 要 更 精确 的 测量 方式 ， 那 么 你 就 必须 使 用 区 间 。 区 间 是 带 有 起 点 的 时 期 ， 这 使 得 其 
非常 精确 ， 你 可 以 确切 地 知道 它 的 长 度 : 

next_year <- today() + years(1) 


(today() %--% next_year) / ddays(1) 
#> [1] 365 


要 想 知 道 一 个 区 间 内 有 多 少 个 阶段 ， 你 需要 使 用 整数 除法 : 


(today() %--% next_year) %/% days(1) 
#> [1] 365. 


























12.4.4 小 结 


如 何在 时 期 、 阶 段 和 区 间 中 进行 选择 呢 ? 一 如 既往 ， 选 择 能 够 解决 问题 的 最 简单 的 数据 结 
构 。 如 果 只 关心 物理 时 间 ， 那 么 就 使 用 时 期 ， 如 果 还 需要 考虑 人 工时 间 ， 那 么 就 使 用 阶 
段 ， 如 有 果 需 要 找 出 人 工时 间 范 围 内 有 多 长 的 时 间 间 隔 ， 那 么 就 使 用 区 间 。 


图 12-1 总 结 了 不 同 数据 类 型 之 间 可 以 进行 的 数学 运算 。 
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12-1: 不 同日 期 /时 间 类 之 间 可 以 进行 的 数学 运算 


12.4.5 ”练习 

(1) 为 什么 存在 months() 国 数 ， 但 没有 dmonths() 国 数 ? 

(2) 向 刚 开始 学 习 R 的 人 解释 days(overnight * 1) 的 意义 。 它 的 作用 是 什么 ? 

(3) 创建 一 个 日 期 向 量 来 给 出 2015 年 每 个 月 的 第 一 天 ;创建 一 个 日 期 向 量 来 给 出 今年 每 个 
月 的 第 一 天 。 

(4) 编写 一 个 函数 ， 输 入 你 的 生日 (日 期 型 )， 使 其 返回 你 的 年 龄 (以 年 为 单位 )。 


(5) 为 什么 (today() %--% (today() + years(1)) / months(1) 这 上 段 代码 不 能 正常 运行 ? 


12.5 时 区 


时 区 是 个 非常 复杂 的 主题 ， 因 为 其 受 很 多 地 理 政治 因素 的 影响 。 好 在 我 们 无 须 对 其 细 市 进 
行 过 多 研究 ， 因 为 它 对 数据 分 析 来 说 不 是 特别 重要 ， 但 还 是 有 一 些 问 题 需要 我 们 解决 。 

第 一 个 问题 是 ， 时 区 的 名 称 有 些 含糊 不 清 。 例 如 ， 如 果 你 是 美国 人 ， 那 么 一 定 很 熟悉 EST 
(Eastern Standard Time， 东 部 标准 时 间 )。 但 是 ， 澳 大 利 亚 和 加 拿 大 也 都 有 EST ! 为 了 避 
免 混淆 ，R 使 用 国际 标准 IANA 时 区 。 这 些 时 区 使 用 统一 带 有 “/” 的 命名 方式 ， 一 般 的 形 
式 为 “< 大 陆 >/< 城 市 >”( 存 在 例外 ， 因 为 不 是 所 有 城市 都 位 于 一 块 大 陆 )。 如 “America/ 
New_ York”、“Europe/Paris” 和 “Pacific/Auckland”。 


你 可 能 很 想 知道 ， 为 什么 时 区 使 用 城市 来 表示 ， 通 常 我 们 都 会 认为 时 区 应 该 使 用 国家 或 
地 区 来 表示 。 这 是 因为 IANA 数据 库 必 须 记 录 十 年 间 的 时 区 ， 而 在 十 年 时 间 中 ， 国 家 更 
名 (或 分 裂 ) 的 情况 非常 多 ， 但 城市 名 是 基本 保持 不 变 的 。 另 一 个 问题 是 ， 时 区 名 称 要 
反映 的 不 仅 是 现在 的 情况 ， 还 有 整个 历史 。 例 如 ， 有 两 个 名 为 “America/New_York” 和 
“America/Detroit” 的 时 区 。 这 两 个 城市 现在 都 使 用 东部 标准 时 间 ， 但 在 1969-1972 年 ， 密 
软 根 (底特律 所 在 的 州 ) 不 使 用 夏 时 制 ， 因 此 它 需 要 一 个 不 同 的 时 区 名 称 。 仅 仅 是 这 些 故 
事 ， 就 值得 你 阅读 一 下 原始 时 区 数据 库 ! 

在 R 中 ， 可 以 使 用 sys.timezone() 国 数 找 出 你 的 当前 时 区 : 


Sys.timezone() 
#> [1] "America/Los_Angeles" 
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(如 果 R 找 不 到 时 区 ， 那 么 就 会 返回 NA。) 
你 还 可 以 使 用 Olsonnames() 函数 来 查看 完整 的 时 区 名 称 列表 : 





length(OlsonNames()) 

#> [1] 589 

head(OlsonNames()) 

#> [1] "Africa/Abidjan" "Africa/Accra" 
#> [3] "Africa/Addis_Ababa" "Africa/Algiers" 
#> [5] "Africa/Asmara" "Africa/Asmera" 


在 R 中 ,时 区 是 日 期 时 间 型 数据 的 一 个 属性 ， 仅 用 于 控制 输出 。 例 如 ， 以 下 3 个 对 象 表示 


的 是 同一 时 刻 : 


(x1 <- ymd_hms("2015-06-01 12:00:00", tz = "America/New_York")) 
办 > [1] "2015-06-01 12:00:00 EDT" 
(x2 <- ymd_hms("2015-06-01 18:00:00", tz = "Europe/Copenhagen")) 
#> [1] "2015-06-01 18:00:00 CEST" 
(x3 <- ymd_hms("2015-06-02 04:00:00", tz = "Pacific/Auckland")) 
#> [1] "2015-06-02 04:00:00 NZST" 


你 可 以 使 用 减法 操作 来 验证 它们 都 是 同一 时 刻 : 


x1 - X2 
#> Time difference of 0 secs 
x1 - x3 


#> Time difference of 0 secs 


除非 使 用 了 其 他 设置 ，lubridate 总 是 使 用 UTC (Coordinated Universal Time， 国 际 标准 时 


间 )。 


UTC 是 科技 界 使 用 的 时 区 标准 ， 基 本 等 价 于 它 的 前 身 GMT (Greenwich Mean Time, 





格林 尼 治 标准 时 间 )。 因 为 没有 夏 时 制 ， 所 以 它 非常 适合 计算 。 涉 及 日 期 时 间 的 操作 《〈 比 
如 c()) 经 常会 丢弃 时 区 信息 。 在 这 种 情况 下 ， 日 期 时 间 会 显示 你 的 本 地 时 区 : 





x4 <- c(x1, x2, x3) 

x4 

#> [1] "2015-06-01 09:00:00 PDT" "2015-06-01 09:00:00 PDT" 
#> [3] "2015-06-01 09:00:00 PDT" 


你 可 以 使 用 两 种 方法 来 改变 时 区 。 


保持 时 间 不 变 ， 修 改 其 显示 方式 。 当 时 间 正确 ， 但 需要 更 直观 的 表示 时 ， 可 以 使 用 这 种 
方法 : 


(这 





x4a <- with tz(x4, tzone = "Australia/Lord_Howe") 
x4a 

#> [1] "2015-06-02 02:30:00 LHST" 

#> [2] "2015-06-02 02:30:00 LHST" 

#> [3] "2015-06-02 02:30:00 LHST" 

x4a - x4 

#> Time differences in secs 

#> [41] 0 0 0 


同时 反映 出 时 区 的 另 一 个 问题 : 它们 的 偏 移 小 时 数 不 全 是 整数 ! ) 
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修改 内 部 时 间 。 当 时 间 数 据 被 标 广 了 错误 的 时 区 ， 而 想 要 改正 过 来 时 ， 你 就 可 以 使 用 这 
种 方法 : 

x4b <- force_tz(x4, tzone = "Australia/Lord_Howe") 

x4b 

#> [1] "2015-06-01 09:00:00 LHST" 

#> [2] "2015-06-01 09:00:00 LHST" 


#> [3] "2015-06-01 09:00:00 LHST" 
x4b - x4 


#> Time differences in hours 
WS Fi] -175 S.S «17:5 





第 三 部 分 





编程 


这 一 部 分 致力 于 提高 你 的 编程 技能 。 编 程 是 所 有 数据 科学 工作 都 不 可 或 缺 的 一 项 技能 : 你 
必须 使 用 计算 机 来 进行 数据 科学 工作 ， 不 可 能 在 头脑 中 或 使 用 纸 和 笔 来 进行 。 





编程 





可 视 化 





编程 产 出 代码 ， 代 码 是 一 种 沟通 工具 。 很 显然 ， 代 码 可 以 告诉 计算 机 你 想 要 做 什么 ， 同 时 
也 可 以 用 于 人 与 人 之 间 的 交流 。 将 代码 当 作 一 种 沟通 工具 是 非常 重要 的 ， 因 为 现在 所 有 项 
目 基 本 上 都 要 靠 协 作 才 能 完成 。 即 使 你 现在 单枪匹马 地 工作 ， 也 肯定 要 与 未 来 的 自己 进行 
交流 ! 代码 清晰 易 懂 特别 重要 ， 这 样 其 他 人 (包括 未 来 的 你 ) 才能 理解 你 为 什么 要 使 用 这 
种 方式 进行 分 析 。 因 此 ， 提 高 编程 能 力 的 同时 也 要 提高 沟通 能 力 。 随 着 时 间 的 推移 ， 你 不 
仅 会 希望 代码 更 易于 编写 ， 还 会 希望 它 更 容易 为 他 人 所 理解 。 
写 代 码 和 写 文章 在 很 多 方面 是 非常 相似 的 。 我 们 发 现 二 者 特别 重要 的 一 个 共同 之 处 是 ， 要 
你 对 自己 想法 的 第 一 次 表达 往往 不 是 特别 清 




















想 让 代码 或 文章 更 加 清晰 易 懂 ， 关 键 是 重 写 。 





晰 ， 因 此 需要 多 次 重 写 。 解 决 一 个 数据 分 析 难 











E 题 后 ， 我 们 通常 应 该 




















了 审视 一 下 代码 ， 思 考 





一 下 它 是 否 真正 实现 了 我 们 的 要 求 。 当 产生 新 想法 时 ， 如 果 花 一 点 时 间 重 写 代码 ， 就 可 以 
节省 以 后 重 构 代 码 所 需 的 大 量 时 间 。 但 这 并 不 是 说 你 应 该 重 写 所 有 功能 。 是 尽快 实现 当前 
功能 ， 还 是 从 长 远 来 看 节约 时 间 ， 你 需要 权衡 一 下 。( 不 过 ， 功 能 重 写 得 越 多 ， 就 越 可 能 





将 最 初 想法 表达 得 更 清楚 。) 





以 下 4 章 中 介绍 的 技能 既 可 以 帮助 你 编写 新 的 程序 ， 又 能 够 让 你 更 清晰 、 更 容易 地 解决 现 





有 问题 。 


。 第 13 章 将 深入 介绍 管道 操作 ， 即 %>%， 你 将 学 习 更 多 关于 管道 操作 的 工作 原理 和 替代 


方式 ， 以 及 不 适合 使 用 管道 的 情形 。 
复制 粘贴 确实 功能 强大 ,但 这 种 操作 不 应 该 超过 两 次 。 代 码 中 的 重复 内 容 是 非常 


因为 这 样 很 容易 导致 错误 和 不 一 致 。 第 14 章 会 介绍 如 何 编写 函数 ， 这 是 重复 使 用 代码 





的 一 种 方式 ， 它 可 以 让 你 提取 出 重复 代码 ， 然 后 轻松 地 进行 重用 。 























当 开始 编写 功能 更 强大 的 函数 时 ,你 需要 深刻 理解 R 的 数据 结构 ,这 就 是 第 15 章 的 内 容 。 


你 必须 掌握 4 种 常用 的 原子 向 量 ， 以 及 以 此 为 基础 构建 的 3 种 重要 S3 类 ， 并 理解 列表 


和 数据 框 背后 的 奥秘 。 





国 数 可 以 提取 出 重复 代码 ， 但 你 经 常 需要 对 不 同 的 输入 重复 相同 的 操作 。 你 需要 可 以 多 


次 执行 相同 操作 的 迭代 工具 ， 这 些 工 具 包 括 for 循环 和 国 数 式 编程 ， 这 就 是 第 
要 介绍 的 内 容 。 


更 多 学 习 资 源 


以 上 各 章 的 目的 是 让 你 掌握 实践 数据 科学 所 必需 的 编程 技能 ， 其 中 的 内 容 还 是 相 








如 果 你 已 经 完全 掌握 了 本 书 中 的 内 容 ， 我 们 坚信 你 还 应 该 进一步 拓展 你 的 编程 技 角 








16 章 将 


当 多 的 。 


Ë, 31 





更 多 编程 技能 是 一 项 长 期 投资 ， 虽 然 其 效果 不 是 立竿见影 ， 但 从 长 期 来 看 ， 它 可 以 让 你 更 
高 效 地 解决 新 问题 ， 也 可 以 让 你 将 从 以 前 问题 中 获得 的 知识 和 经 验 应 用 于 新 的 场景 。 





为 了 学 到 更 多 知识 ， 你 需要 将 R 当 作 一 门 编程 语言 ， 而 不 只 是 数据 科学 的 一 种 交 
我 们 已 经 出 版 了 两 本 书 来 帮助 你 学 习 R 编程 。 


。 《R 语言 入 门 与 实践 》 Garrett Grolemund 车 。 这 是 R 编程 语言 的 一 本 入 门 书 ， 














互 环境 。 


wR R 


是 你 的 第 一 门 编程 语言 ， 那 么 从 该 书 开始 是 非常 合适 的 。 该 书 的 内 容 与 上 述 各 章 非 常 相 








似 ， 但 使 用 了 不 同 的 风格 和 示例 。 如 果 你 觉得 这 4 章 的 内 容 过 于 简略 ， 那 么 该 
重要 补充 。 


e Advanced R, Hadley Wickham 车 。 该 书 深入 介绍 了 R 作为 编程 语言 的 各 种 细节 。 如 果 
你 已 有 编程 经 验 ， 那 么 该 书 非常 适合 你 。 如 果 你 已 经 掌握 了 上 述 4 章 的 内 容 ， 那 么 该 书 








也 非常 适合 你 继续 学 习 。 该 书 有 在 线 版 本 。 





BB 是 一 项 
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第 13 章 


使 用 magrittr 进 行 管道 操作 





13.1 简介 

管道 是 一 种 强大 的 工具 ， 可 以 清楚 地 表示 由 多 个 操作 组 成 的 一 个 操作 序列 。 到 目前 为 止 ， 
我 们 已 经 知道 了 如 何 使 用 从 省 但 还 不 清楚 其 工作 原理 ， 也 不 知道 它 是 否 有 替代 方式 。 本 
章 将 更 加 详细 地 研究 管道 操作 。 你 将 学 到 管道 的 替代 方式 、 何 时 不 应 该 使 用 管道 ， 以 及 其 
他 一 些 有 用 的 相关 工具 。 


准备 工作 

管道 %>% 来 自 于 Stefan Milton Bache 开发 的 magrittr 包 。 因 为 tidyverse 中 的 包 会 自动 加 载 
%>%， 所 以 通常 你 无 须 显 式 地 加 载 magrittr。 但 接 下 来 我 们 将 重点 讨论 管道 操作 ， 且 不 加 载 
任何 其 他 R 包 ， 因 此 需要 显 式 地 加 载 magrittr 包 。 


library(magrittr) 


13.2 管道 的 蔡 代 方式 


道 操 作 的 出 发 点 是 帮助 你 以 请 晰 易 懂 的 方式 编写 代码 。 为 了 说 明 管 道 如 此 有 用 的 原 
段 代码 的 不 同 编写 方式 。 现 在 我 们 使 用 代码 来 讲述 小 免 福 福 的 故事 : 
一 只 小 免 叫 福 福 
蹦 蹦 跳 跳 过 森林 
MEEDER 
每 只 关上 打 一 下 
这 是 一 首 流 传 其 广 的 童谣 ， 可 以 边 唱 边 配合 手 部 动作 。 











PH 
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首先 ， 我 们 定义 一 个 对 象 来 表示 小 免 福 福 : 
foo_foo <- little_bunny() 


后 ， 我 们 使 用 函数 来 表示 每 个 动作 : hop()、scoop() 和 bop()。 通 过 这 个 对 象 和 这 些 函 
数 ， 我 们 至 少 有 4 种 方法 来 使 用 代码 讲述 这 个 故事 : 
。 将 每 个 中 间 步 骤 保 存 为 一 个 新 对 象 ; 

。 多 次 重 写 初始 对 象 ; 

。 组 合 多 个 函数 ， 

。 使 用 管道 。 

接 下 来 我 们 会 依次 介绍 每 种 方法 ， 并 讨论 其 优 缺 点 。 


13.2.1 中 间 步 又 
最 简单 的 方法 是 将 每 个 中 间 步 又 保存 为 一 个 新 对 象 : 


foo_foo 1 <- hop(foo_foo, through = forest) 
foo_foo 2 <- scoop(foo_foo_1, up = field_mice) 
foo_foo 3 <- bop(foo_foo_2, on = head) 


这 种 方法 的 最 大 缺点 是 ， 你 必须 为 每 个 中 间 结 果 建立 一 个 变量 。 如 果 这 些 变 量 确实 有 意 
义 ， 那 么 这 就 是 一 种 好 方法 ， 你 也 应 该 建立 这 些 变量 。 但 在 很 多 情况 下 ， 比 如 在 以 上 示例 
中 ， 这 些 变量 其 实 是 没有 什么 实际 意义 的 ， 你 还 必须 使 用 数字 后 缀 来 区 分 这 些 变量 。 这 样 
会 造成 两 个 问题 。 
。 代码 中 充斥 着 大 量 不 必要 的 变量 。 
。 你 必须 在 每 一 行 代码 中 小 心 村 村 地 修改 变量 后 绥 
每 次 编写 这 种 代码 ， 我 都 会 在 某 行 用 错 数字 ， 然 后 花 10 分 钟 一 边 挠 着 脑袋 ， 一 边 努 力 找 
出 代码 的 错误 。 
你 可 能 还 会 担心 这 种 代码 创建 的 多 个 数据 副本 会 占用 大 量 内 存 。 出 人 意料 的 是 ， 这 种 担心 
大 可 不 必 。 首 先 ， 你 不 应 该 将 时 间 花 在 过 早 担心 内 存 上 。 当 内 存 确实 成 为 问题 ( 即 内 存 耗 
R) 时 再 担心 便 是 ， 否 则 就 是 杞 人 忧 天 。 其 次 ，R 是 很 智能 的 ， 它 会 尽量 在 数据 框 之 间 共 
享 数据 列 。 以 一 个 实际 的 数据 处 理 流程 为 例 ， 我 们 向 数据 集 ggptot2: :diamonds 中 添加 一 
个 新 列 : 

diamonds <- ggplot2::diamonds 


diamonds2 <- diamonds %>% 
dplyr::mutate(price_per_carat = price / carat) 


















































pryr::object_size(diamonds) 

#> 3.46 MB 
pryr::object_size(diamonds2) 

办 > 3.89 MB 
pryr::object_size(diamonds, diamonds2) 
#> 3.89 MB 


函数 pryr::object_size() 会 返回 其 所 有 参数 占用 的 内 存 。 以 下 结果 乍 一 看 似乎 有 悖 常理 。 
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diamonds 占用 了 3.46MB 内 存 。 
diamonds2 占用 了 3.89MB 内 存 。 
diamonds 和 diamonds2 一 共 占 用 了 3.89MB 内 存 ! 


怎么 会 这 样 呢 ? diamonds2 和 diamonds 有 10 个 公共 的 数据 列 ， 这 些 列 中 的 数据 没 必 要 再 
复制 一 份 ， 因 此 这 两 个 数据 框 中 有 公用 变量 。 公 用 变量 只 有 在 修改 时 才 会 进行 复制 。 在 以 
下 的 示例 中 ， 我 们 修改 了 diamonds$carat 中 的 一 个 值 。 这 意味 着 carat 变量 不 再 由 两 个 数 
据 框 共 享 ， 而 必须 创建 一 个 副本 。 每 个 数据 框 的 大 小 保持 不 变 ， 但 总 的 大 小 增加 了 : 

diamondsscarat[1] <- NA 

pryr::object_size(diamonds) 

#> 3.46 MB 

pryr::object_size(diamonds2) 

#> 3.89 MB 

pryr::object_size(diamonds, diamonds2) 

#> 4.32 MB 


(注意 ， 我 们 在 该 示例 中 使 用 了 pryr::object_size()， 而 不 是 内 置 函 数 object_size, [FH 
为 object_size() 只 能 接受 一 个 参数 ， 所 以 它 无 法 计算 在 多 个 对 象 间 共享 的 数据 所 占用 的 


空间 。) 


13.2.2 重 写 初始 对 象 
除了 为 每 个 中 间 步 又 创建 新 对 象 ， 我 们 还 可 以 重 写 初 始 对 象 : 


foo_foo <- hop(foo_foo, through = forest) 
foo_foo <- scoop(foo_foo, up = field mice) 
foo_foo <- bop(foo_foo, on = head) 


因为 这 种 方式 需要 的 输入 更 少 (也 无 须 过 多 思 萎 )， 所 以 不 容易 出 错 ， 但 是 有 两 个 问题 。 


调试 起 来 太 痛 苗 了 。 如 有 果 出 错 ， 那 么 你 就 必须 从 头 开始 运行 整个 流程 。 
对 象 的 多 次 重 写 (输入 了 6 次 foo_foo ! ) 阻碍 我 们 看 清 每 行 代码 中 发 生 的 变化 。 


13.23 ”函数 组 合 

另 一 种 方法 是 将 多 个 函数 组 合 在 一 起 ， 这 样 可 以 避免 赋值 语句 : 
bop( 
scoop( 


hop(foo_foo, through = forest), 
up = field_mice 




















) 


on = head 
) 


这 种 方法 的 缺点 是 ， 必 须 按 照 从 内 向 外 和 从 右 向 左 的 顺序 阅读 代码 ， 而 且 参 数 太 分 散 了 
(人 们 形象 地 将 这 种 代码 称 为 多 层 三 明治 )。 简 而 言 之 ， 这 种 代码 不 适合 人 类 阅读 。 
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13.2.4 ”使 用 管道 
最 后 ， 我 们 可 以 使 用 管道 : 


foo_foo %>% 
hop(through = forest) %>% 
scoop(up = fieLd_mouse) %>% 
bop(on = head) 


这 种 方式 是 我 们 的 最 爱 ， 因 为 它 的 重点 在 于 动词 ， 而 不 是 名 词 。 在 阅读 这 一 串 函 数组 合 
时 ， 你 可 以 将 它们 当成 一 系列 规定 动作 。 福 福 蹦跳 着 ， 然 后 抓 田 鼠 ， 接 着 打 田 鼠 。 至 于 这 
种 方式 的 缺点 ， 当 然 就 是 你 必须 先 熟悉 管道 。 如 果 以 前 从 来 没 见 过 %>%， 那 么 你 根本 搞 不 
清 这 段 代 码 的 意义 。 幸 好 大 多 数 人 都 可 以 很 快 理解 这 种 思想 ， 因 此 ， 当 与 不 熟悉 管道 操作 
的 人 分 享 这 种 代码 时 ， 你 可 以 很 轻松 地 教会 他 们 。 


管道 的 工作 原理 就 是 进行 “词法 变换 ”"。 在 这 种 方式 背后 ，magrittr 会 重新 组 合 管道 代码 ， 
按照 重 写 中 间 变 量 的 方式 来 运行 。 当 执行 以 上 示例 中 的 管道 操作 时 ， 实 际 上 magrittr 执行 
的 是 类 似 以 下 的 代码 : 
my_pipe <- function(.) í 
. <- hop(., through = forest) 
. <- scoop(., up = field mice) 
bop(., on = head) 


} 
my_pipe(foo_foo) 


这 意味 着 管道 不 能 支持 以 下 两 类 函数 。 
。 使 用 当前 环境 的 函数 。 例 如 ，assign() 函数 会 在 当前 环境 中 使 用 给 定名 称 创建 一 个 新 


变量 : 


















































>l 


assign("x", 10) 
x 
#> [1] 10 


"x" %>% assign(100) 
X 
#> [1] 10 


通过 管道 方式 使 用 assign() 国 数 是 无 效 的 ， 因 为 这 时 赋值 操作 是 在 由 %‰%% 建立 的 一 个 临 
时 环境 中 进行 的 。 如 果 要 通过 管道 方式 来 使 用 assign()， 就 必须 显 式 地 指定 环境 : 


env <- _ environment() 

"x" %>% assign(100, envir = env) 
x 

#> [1] 100 


具有 这 个 问题 的 其 他 函数 包括 get () 和 load()。 


° 使 用 惰性 求 值 的 函 数 。 在 R 中 ,不 会 在 函数 调用 前 计算 这 种 函数 的 参数 ， 只 在 函数 使 
用 时 才 进 行 计算 。 管 道 依次 计算 每 个 参数 ， 因 此 不 能 用 在 这 种 函数 上 。 
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具有 这 种 问题 的 一 个 函数 是 trycatch()， 它 可 以 捕获 并 处 理 程序 错误 : 


tryCatch(stop("!"), error = function(e) "An error") 
#> [1] "An error" 














stop("!") %>% 
tryCatch(error = function(e) "An error") 
#> Error in eval(expr, envir, enclos): ! 


使 用 情 性 求 值 的 国 数 还 是 很 多 的 ， 其 中 包括 了 及 基础 包 中 的 try()、suppressMessages() 
和 suppressWarnings()。 


13.3 ”不 适合 使 用 管道 的 情形 


管道 是 一 种 功能 强大 的 工具 ， 但 并 不 是 你 的 唯一 选择 ， 也 不 是 “万 能 药 " 。 管 道 最 大 的 
用 武之 地 是 重 写 一 段 较 短 的 线性 操作 序列 。 对 于 以 下 儿 种 情形 ， 我 们 认为 最 好 不 要 使 用 
管道 。 
。 操作 步骤 超过 10 (参考 值 ) 个 。 这 种 情况 下 ， 应 该 使 用 有 意义 的 变量 来 保存 中 间 结 果 。 
这 样 会 使 得 调试 更 加 容易 ， 因 为 你 更 容易 检查 中 间 结 果 ， 还 可 以 使 得 代码 更 容易 理解 ， 
因为 有 意义 的 变量 名 称 可 以 帮助 别人 明白 你 的 代码 意图 。 
有 多 个 输入 和 和 输出。 如果 需要 处 理 的 不 是 一 个 基本 对 象 ， 而 是 组 合 在 一 起 的 两 个 或 多 个 
对 象 ， 就 不 要 使 用 管道 。 
。 操作 步骤 构成 一 张 具 有 复杂 依赖 关系 的 有 向 图 。 管 道 基 本 上 是 一 种 线性 操作 ， 如 果 使 用 
它 来 表示 复杂 的 关系 ， 通 常会 使 得 代码 混乱 不 清 。 


13.4 magrittr 中 的 其 他 工具 


tidyverse 中 的 所 有 包 都 会 自动 加 载 %>%， 因 此 一 般 不 用 显 式 加 载 magrittr。 然 而 ，magrittr 
包 中 还 有 其 他 一 些 有 用 的 工具 ， 你 或 许 想 要 尝试 一 下 。 


在 使 用 比较 复杂 的 管道 操作 时 ， 有 时 会 因为 茶 个 函数 的 副作用 而 调用 它 。 比 如 ， 你 可 能 
想 要 打印 或 绘制 出 当前 对 象 ， 或 者 想 将 它 保存 在 硬盘 中 。 很 多 时 候 这 种 函数 不 会 返回 任 
何 结果 ， 只 会 有 效 地 结束 管道 操作 。 


为 了 解决 这 个 问题 ， 你 可 以 使 用 “T” 管 道 操作 符 %T>%。 它 的 用 法 和 %>% 差不多 ， 只 是 
它 返 回 的 是 左 侧 项 而 不 是 右 侧 项 。 之 所 以 称 它 为 “T” 操 作 符 ， 是 因为 它 起 的 作用 类 似 
于 工 形 三 通 管道 ， 
rnorm(100) %>% 
matrix(ncol = 2) %>% 
plot() %>% 
str() 
#> NULL 
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[3] 
ü 1 





rnorm(100) %>% 
matrix(ncol = 2) %T>% 
plot() %>% 
str(J) 





#> num [1:50, 1:2] -0.387 -0.785 -1.057 -0.796 -1.756 ... 





























[1] 


如 果 使 用 的 函数 不 是 基于 数据 框 的 〈 也 就 是 说 ， 你 必须 传 给 这 些 





国 数 一 个 独立 的 向 量 ， 


不 能 传 给 它们 数据 框 或 基于 数据 框 求 值 的 表达 式 ) ， 那 么 你 就 会 发 现 爆炸 操作 符 %% 的 
妙 处 。 它 可 以 将 数据 框 中 的 变量 “ 炸 出 来 " ， 让 你 显 式 地 引用 。 当 需要 使 用 R 基础 包 中 
的 很 多 函数 时 ， 这 个 操作 符 特别 奏效 : 





mtcars %$% 
cor(disp, mpg) 
#> [1] -0.848 


mtcars <- mtcars %>% 


transform(cyl = cyl * 2) 


替代 为 





magrittr 提供 了 %<>% 操作 符 来 执行 赋值 操作 ， 它 可 以 将 以 下 代码 : 


mtcars %<>% transform(cyl = cyl * 2) 
因为 我 认为 赋值 是 一 种 非常 特殊 的 操作 ， 如 果 需 要 进行 赋 
值 ， 那 么 就 应 该 使 赋值 语句 尽量 清晰 。 我 的 看 法 是 ， 一 点 小 小 的 重复 〈 即 重复 输入 对 象 
名 称 两 次 ) 是 必要 的 ， 它 可 以 更 加 明确 地 表示 出 赋值 语句 。 


我 不 是 很 喜欢 这 个 操作 符 ， 
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14.1 简介 


要 想 成 为 一 名 优秀 的 数据 科学 家 ， 编 写 国 数 绝对 是 最 好 的 途径 之 一 。 与 复制 粘贴 相 比 ， 国 
数 可 以 通过 更 强大 、 更 通用 的 方式 来 自动 执行 常用 任务 。 相 比 于 复制 粘贴 ， 函 数 具 有 以 下 
3 个 主要 优点 。 


。 你 可 以 给 函数 起 一 个 意味 深长 的 名 字 ， 从 而 让 代码 更 容易 理解 。 

。 如 果 需 求 发 生 了 变化 ， 只 需要 修改 一 处 代码 即 可 ， 无 须 修改 多 处 。 

。 消除 了 复制 粘贴 时 可 能 出 现 的 无 心 之 失 比如， 修改 了 一 处 的 变量 名 称 ， 但 却 没 有 修改 
p R) 

编写 优秀 函数 可 以 作为 一 个 人 的 毕生 事业 。 即 使 已 经 使 用 R 多 年 ， 但 我 们 还 是 对 新 技术 和 

使 用 更 好 的 方法 解决 老 问题 孜孜 以 求 。 本 章 的 目的 不 是 向 你 传授 编写 函数 的 神功 秘籍 ， 而 

是 提供 一 些 行 之 有 效 的 实用 建议 ， 让 你 能 够 尽快 开始 编写 自己 的 函数 。 

除了 函数 开发 ， 本 章 还 会 对 代码 风格 提出 一 些 建议 。 良 好 的 代码 风格 就 像 正 确 使 用 标点 符 

号 一 样 重要 。 不 使 用 标点 符号 你 也 一 样 可 以 写 文章 ， 但 使 用 标点 符号 肯定 可 以 让 文章 更 通 

俗 易 履 。 代 码 风格 种 类 繁多 ， 各 具 特 色 。 这 里 介绍 的 只 是 我 们 所 使 用 的 代码 风格 ， 最 重要 

的 是 风格 要 保持 一 致 。 


准备 工作 


本 章 的 焦点 是 在 R 基础 包 中 编写 函数 ， 因 此 不 需要 任何 额外 的 包 。 
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14.2 ”什么 时 候 应 该 使 用 函数 


只 要 一 段 代 码 需要 复制 粘贴 的 次 数 超过 两 次 〈 也 就 是 说 ， 同 一 段 代 码 至 少 有 3 个 副本 )， 
那么 就 应 该 考虑 编写 一 个 函数 。 例 如 ， 查 看 下 面 这 段 代码 ， 它 的 功能 是 什么 呢 ? 


df <- tibble::tibble( 
rnorm(10), 
rnorm(10), 
rnorm(10), 
rnorm(10) 














en Co 


) 


df$a <- (dfsa - min(df$a, na.rm = TRUE)) / 

(max(df$a, na.rm = TRUE) - min(df$a, na.rm = TRUE)) 
dfsb <- (df$b - min(df$b, na.rm = TRUE)) / 

(max(df$b, na.rm = TRUE) - min(df$a, na.rm = TRUE)) 
dfsc <- (dfsc - min(df$c, na.rm = TRUE)) / 

(max(df$c, na.rm = TRUE) - min(df$c, na.rm = TRUE)) 
dfsd <- (dfsd - min(df$d, na.rm = TRUE)) / 

(max(df$d, na.rm = TRUE) - min(df$d, na.rm = TRUE)) 


你 可 能 已 经 看 出 来 了 ， 这 段 代 码 的 作用 是 将 每 列 的 值 调整 到 0 到 1 之 间 。 但 你 能 否 发 现 其 
a 在 复制 粘贴 处 理 dfsb 的 代码 时 ， 我 们 犯 了 一 个 错误 : 我 们 忘记 将 其 中 的 一 个 
a 改 成 b 了。 提取 重复 代码 ， 将 其 转换 为 函数 是 一 种 非常 好 的 做 法 ， 因 为 这 样 可 以 防止 此 
类 错误 的 发 生 。 

要 想 编写 一 个 函数 ， 首 先 需 要 分 析 人 代码， 比如， 函数 需要 多 少 个 输入 ? 


(df$a - min(df$a, na.rm = TRUE)) / 
(max(df$a, na.rm = TRUE) - min(df$a, na.rm = TRUE)) 


这 段 代码 只 有 一 个 输入 : df$a。( 如 果 你 很 好 奇 为 什么 TRUE 不 是 输入 ， 那 么 可 以 在 后 面 的 
练习 中 找到 答案 。) 为 了 让 输入 更 加 清晰 ， 应 该 使 用 具有 通用 名 称 的 临时 变量 来 重 写 代码 。 
以 上 代码 只 需要 一 个 数值 向 量 ， 我 们 可 以 称 其 为 x: 

x <- df$a 

(x - min(x, na.rm = TRUE)) / 

(max(x, na.rm = TRUE) - min(x, na.rm = TRUE)) 

#> [4] 0.289 0.751 0.000 0.678 0.853 1.000 0.172 0.611 0.612 

#> [10] 0.601 


这 段 代 码 中 还 有 一 些 重复 ， 我 们 计算 了 3 次 数据 最 大 值 和 最 小 值 ， 但 这 可 以 一 步 完成 : 


rng <- range(x，na.rm = TRUE) 

(x - rng[1]) / (rng[2] - rng[1]) 

#> [1] 0.289 0.751 0.000 0.678 0.853 1.000 0.172 0.611 0.612 
#> [10] 0.601 


a 吉 果 保存 为 命名 变量 是 一 种 非常 好 的 做 法 ， 因 为 这 样 可 以 让 代码 的 意义 更 加 清 
。 既 然 我 们 已 经 简化 了 代码 ， 并 检验 了 代码 可 以 正常 运行 ， 接 下 来 就 可 以 将 其 转换 为 函 
数 了 ， 
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rescale01 <- function(x) í 
rng <- range(x，na.rm = TRUE) 
(x - rng[1]) / (rng[2] - rng[1]) 


rescale01(c(0, 5, 10)) 
#> [1] 0.0 0.5 1.0 


要 想 创建 一 个 新 函数 ， 需 要 以 下 3 个 关键 步 又。 


(1) 为 函数 选择 一 个 名 称 。 在 以 上 示例 中 ， 我 们 使 用 rescale01 作为 函数 名 称 ， 因 为 这 个 函 
数 的 功能 是 将 一 个 向 量 调整 到 0 到 1 之 间 。 


(2) 列举 出 function 中 所 用 的 输入 ， 即 参数 。 这 个 示例 中 只 有 一 个 参数 ， 如 果 有 更 多 参数 ， 
那么 函数 调用 形式 就 类 似 于 function(x, y, z). 


(3) 将 已 经 编写 好 的 代码 放 在 函数 体 中 。 在 function(...) 后面 要 紧 跟 一 个 用 {} 括 起 来 的 
代码 块 。 

注意 以 上 创建 函数 的 整体 过 程 。 确 定 函数 如 何 使 用 简单 输入 来 运行 后 ， 我 们 才 开 始 编写 函 

数 。 从 工作 代码 开始 ， 再 将 其 转换 为 函数 是 相对 容易 的 ， 先 创建 函数 ， 再 让 其 正确 运行 则 

是 比较 困难 的 。 


此 时 我 们 应 该 使 用 其 他 输入 来 测试 函数 是 否 正 确 : 


rescale01(c(-10, 0, 10)) 

#> [1] 0.0 0.5 1.0 
rescale01(c(1, 2, 3, NA, 5)) 

#> [1] 0.00 0.25 0.50 NA 1.00 


编写 了 越 来 越 多 的 函数 后 ， 你 最 终 会 想 要 将 这 种 非 正 式 的 交互 测试 过 程 转化 为 一 种 正式 的 
自动 化 测试 过 程 。 这 种 过 程 称 为 单元 测试 。 遗 憾 的 是 ， 它 超出 了 本 书 的 讨论 范围 ， 如 果 想 
要 了 解 更 多 关于 单元 测试 的 知识 ， 可 以 访问 http:/r-pkgs.had.co.nz/tests.html。 
既然 已 经 有 了 函数 ， 那 么 我 们 就 可 以 利用 它 来 简化 原来 的 示例 了 : 


df$a <- rescale01(df$a) 
df$b <- rescale01(df$b) 
df$c <- rescale01(df$c) 
df$d <- rescale01(df$d) 


相对 于 原来 的 代码 ， 这 段 代 码 更 清楚 易 懂 ， 而 且 还 消除 了 复制 粘贴 可 能 带 来 的 错误 。 但 这 
段 代 码 中 仍然 有 一 些 重复 ， 因 为 我 们 对 多 个 数据 列 进 行 了 同样 的 操作 。 你 将 在 第 16 章 中 
学 习 如 何 消除 这 种 重复 ， 前 提 是 你 在 第 15 章 中 学 习 了 更 多 关于 R 数据 结构 的 知识 。 

国 数 的 另 一 个 优点 是 ， 如 果 需 求 发 生变 化 ， 我 们 只 需要 在 一 处 进行 修改 。 例 如 ， 我 们 发 
现 ， 如 果 有 些 变量 中 包括 无 限 值 ， 那 么 rescale01() 函数 就 会 出 错 : 


x <- c(1:10, Inf) 
rescale01(x) 
#> [1] 0 0 0 0 0 0 0 0 0 ONN 


因为 已 经 将 代码 放 在 函数 中 了 ， 所 以 我 们 只 需要 在 函数 中 进行 修改 即 可 : 
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rescale01 <- function(x) í 
rng <- range(x, na.rm = TRUE, finite = TRUE) 
(x - rng[1]) / (rng[2] - rng[4]) 


rescale01(x) 

#> [1] 0.000 0.111 0.222 0.333 0.444 0.556 0.667 0.778 0.889 

#> [10] 1.000 Inf 
这 个 示例 非常 好 地 体现 了 “不 要 重复 自己 ”(do not repeat yourself, DRY) 这 一 原则 。 代 码 
中 的 重复 部 分 越 多 ， 当 事情 发 生变 化 时 (这 是 必然 的 )， 你 需要 修改 的 地 方 就 越 多 ， 随 着 
时 间 的 推移 ， 代 码 中 的 隐患 也 会 越 来 越 多 。 


练习 

(1) 为 什么 TRUE 不 是 rescale01() 国 数 的 参数 ? 如果 x 中 包含 一 个 缺失 值 ， 而 且 na.rn 的 值 
是 FALSE， 那 么 会 发 生 什么 情况 ? 

(2) 在 rescale01() 函数 的 第 二 个 版 本 中 ， 无 穷 大 值 未 作 任 何 处 理 。 重 写 rescale01() KZ, 

将 -Inf 映射 为 0，Inf 映射 为 1。 


(3) 将 下 面 的 代码 片段 转换 成 函数 。 思 考 一 下 每 个 函数 的 作用 ， 你 应 该 为 新 函数 选择 什么 样 
的 名 称 ?” 它 需要 几 个 参数 ?能 否 重 写 代 码 ， 让 函数 更 清晰 易 履 ， 并 减少 重复 的 操作 ? 


mean(is.na(x)) 

















x / sum(x, na.rm = TRUE) 
sd(x, na.rm = TRUE) / mean(x, na.rm = TRUE) 


(4) 参考 http://nicercode.github.io/intro/writing-functions.html， 编 写 一 个 函数 来 计算 数值 向 量 
的 方差 和 偏 度 。 

(5) 编写 一 个 名 为 both_na() 的 函数 ， 它 接受 两 个 长 度 相同 的 向 量 ， 如 果 两 个 向 量 中 同一 位 
置 的 值 都 是 NA， 则 返回 这 样 位 置 的 数量 。 

(6) 以 下 函数 的 功能 是 什么 ”尽管 它们 都 很 简短 ， 但 是 用 处 都 很 大 ， 为 什么 ? 


is_directory <- function(x) file.info(x)$isdir 
is_readable <- function(x) file.access(x, 4) == 0 


(7) 阅读 “小 免 福 福 ”的 完整 歌词 (可 以 查看 维基 百科 上 的 Little Bunny Foo Foo)。 这 首 歌 中 
有 大 量 重复 内 容 。 扩 展 原来 的 管道 操作 示例 来 重新 生成 完整 的 歌谣 ， 并 使 用 函数 来 减少 
重复 。 


14.3 人 与 计算 机 的 函数 
一 定 要 牢记 一 点 ， 国 数 不 只 是 面向 计算 机 的 ， 同 时 也 是 面向 人 的 。R 并 不 在 意 函 数 的 名 称 


是 什么 , 或 者 其 中 有 多 少 注释 ， 但是， 这些 对 于 人 类 读者 来 说 都 是 非常 重要 的 。 本 方 将 讨 
论 编写 函数 时 的 一 些 注 意 事 项 ， 它 们 可 以 让 函数 更 容易 为 人 们 所 理解 。 











188 | 第 14 章 














函数 名 是 非常 重要 的 。 理 想 的 函数 名 应 该 既 简 短 ， 又 能 清楚 地 说 明 函 数 的 作用 。 这 很 难 做 
到 ! 但 清楚 比 简短 更 重要 ， 因 为 RStudio 中 的 自动 完成 功能 可 以 使 得 长 函数 名 更 容易 输入 。 


一 般 来 说 ， 函 数 名 应 该 是 动词 ， 而 参数 名 应 该 是 名 词 。 但 也 有 例外 ， 如 果 国 数 计算 的 是 一 
个 众所周知 的 名 词 (比如 ，mean() 要 比 compute_mean() #f), 或 者 读 取 的 是 对 象 的 某 种 属性 
(比如 ，coef() 要 比 get_coefficients() 好 ) 时 ， 那 么 函数 名 使 用 名 词 也 是 可 以 的 。 如 果 
使 用 的 是 非常 广义 的 动词 ， 如 get, compute, calculate 或 determine， 此 时 名 词 通常 是 更 好 
的 选择 。 尽 量 发 挥 你 的 判断 力 ， 如 果 发 现 更 好 的 国 数 名 称 ， 那 么 就 赶快 改名 吧 ， 不 要 犹豫 : 

# 名 称 太 短 

f() 

# 名 称 不 是 动词 ， 或 者 没有 描述 力 


my_awesome_function() 























# 名 称 虽然 长 ， 但 是 表达 得 很 清楚 
impute_missing() 
collapse_years() 


如 果 你 的 函数 名 由 多 个 单词 组 成 ， 那么 我 们 建议 使 用 “snake case” 命 名 法 ， 即 使 用 小 写 
单词 ， 单 词 之 间 用 下 划 线 隔 开 。 另 一 种 常用 的 命名 法 是 “camelCase"， 即 首 个 单词 小 写 ， 
其 余 单 词 首 字 母 大 写 。 其 实 选 择 哪 种 命名 法 并 不 重要 ， 重 要 的 是 要 保持 一 致 ， 选 择 一 种 方 
法 并 坚持 使 用 即 可 。R 本 身 就 不 太一 臻 ， 但 我 们 对 此 无 能 为 力 。 为 了 避免 重 蹈 覆 辐 ,一定 
要 尽量 让 自己 的 代码 具有 一 致 性 : 

# 千 万 别 这 样 

col_mins <- function(x, y) {} 

rowMaxes <- function(y, x) {} 


如 果 你 有 一 族 功能 相似 的 函数 ， 那 么 一 定 要 确保 它们 具有 一 致 的 名 称 和 参数 。 可 以 使 用 一 
个 通用 前 级 来 表明 它们 之 间 的 联系 ， 这 种 方式 比 使 用 通用 后 缀 更 好 ， 因 为 如 果 IDE 有 自动 
完成 功能 ， 那 么 就 可 以 在 输入 前 级 后 列举 出 这 个 函数 族 中 的 所 有 成 员 : 

# 良好 的 命名 方式 

input_select() 

input_checkbox() 

input_text() 

# 不 太 好 的 命名 方式 

select_ input() 

checkbox_input() 

text_input() 


stringr 包 就 是 这 种 设计 的 一 个 优秀 示例 : 如 采 设 有 确切 地 记 住所 需 的 函数 名 称 ， 那 么 可 以 
先 输入 str_， 然 后 就 能 唤起 你 失落 的 记忆 了 。 


应 该 尽 可 能 避免 覆盖 现 有 的 函数 和 变量 。 总 体 来 说 ， 完 全 不 覆盖 是 不 可 能 的 ， 因 为 太 多 好 名 称 
已 经 被 其 他 R 包 占 用 了 ,但 完全 可 以 不 覆盖 R 基础 包 中 最 常用 的 名 称 ， 这 样 可 以 避免 混淆 : 
# 不 要 这 样 ! 
T <- FALSE 


C <= 10 
mean <- function(x) sum(x) 
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你 应 该 使 用 注释 〈 即 由 # 开 头 的 行 ) 来 解释 代码 ， 需 要 解释 的 是 “为 什么 ”， 一 般 不 用 解 
释 “ 是 什么 ”或 “如 何 做 ”"。 如 果 通 过 阅读 无 法 理解 代码 的 行为 ， 那 么 就 应 该 考虑 如 何 重 
写 代码 才能 让 它 更 清晰 。 是 否 应 该 添加 一 些 名 称 有 意义 的 中 间 变 量 ? 是 否 应 该 从 一 个 较 大 
的 函数 中 分 解 出 一 部 分 代码 ， 将 其 转换 为 一 个 有 意义 的 函数 ?但 是 ， 代 码 永远 不 能 表示 出 
决策 背后 的 思考 过 程 为 什么 我 们 选择 这 种 方法 ， 而 不 是 另 一 种 ”如果 这 种 方法 不 奏效 ， 
那 我 们 还 能 怎么 做 ? 在 广 释 中 表达 这 种 思考 过 程 是 一 种 非常 好 的 做 法 。 
注释 的 另 一 个 重要 作用 是 对 代码 进行 分 节 ， 从 而 使 其 更 易 读 。 可 以 使 用 一 长 串 - 或 = 让 代 
码 各 节 之 间 的 界限 更 加 明显 : 

# 加 载 数据 -i 

# 绘制 数据 --------- 


RStudio 提供 了 键盘 快捷 方式 来 创建 这 种 分 节 标 记 ， 即 Ctrl+Shift+kR， 并 且 可 以 在 脚本 编辑 
器 左下 角 的 代码 浏览 弹出 菜单 中 显示 这 些 标记 : 












































Load data 
Plot data 


O Load data + 


练习 
(1) 阅读 以 下 3 个 函数 的 源 代码 ， 推 测 出 它们 的 功能 ， 然 后 使 用 头脑 风暴 给 它们 以 更 好 的 
名 称 。 


fl <- function(string, prefix) { 
substr(string, 1, nchar(prefix)) == prefix 

} 

f2 <- function(x) { 
if (Length(x) <= 1) return(NULL) 
x[-length(x)] 


f3 <- function(x, y) í 
rep(y, length.out = length(x)) 


(2) 找 一 个 你 最 近 编 写 的 国 数 ， 然 后 花 5 分 钟 进行 头脑 风暴 ， 给 它 及 其 参数 一 个 更 好 的 名 称 。 


(3) 比较 并 对 比 rnorm() 和 MASS: :mvrnorm() 国 数 ， 如 何 才能 使 得 它们 更 加 一 致 ? 


(4) 举例 说 明 norm_r(). norm_d() 等 国 数 比 rnorm() 和 dnorm() 更 具 优 势 。 再 举 一 个 反例 说 
明 它 们 的 缺点 。 


P Aam 
14.4 条件 执行 
if 语句 可 以 使 得 你 有 条 件 地 执行 代码 。 其 形式 如 下 所 示 : 


if (condition) { 


# 条 件 为 真 时 执行 的 代码 
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} pe 
菜 件 为 假 时 执行 的 代码 


要 想 获 得 有 关 if 语句 的 帮助 ， 你 需要 使 用 反 引 号 将 其 括 起 来 : ?if 。 如 果 不 是 熟练 的 程 
序 员 ， 那 么 这 个 帮助 对 你 也 没什么 大 用 ， 但 你 至 少 应 该 知道 如 何 获取 这 个 帮助 ! 


下 面 是 使 用 了 if 语句 的 一 个 简单 函数 。 这 个 函数 的 目的 是 返回 一 个 逻辑 向 量 ， 用 于 描述 
一 个 向 量 的 各 个 元 素 是 否 被 命名 : 


has_name <- function(x) { 
nms <- names(x) 
if (is.null(nms)) { 
rep(FALSE, length(x)) 
} else { 
lis.na(nms) & nms != "" 
} 
} 


这 个 函数 利用 了 标准 返回 值 原则 ， 即 函数 返回 其 计算 的 最 后 一 个 值 。 这 里 是 if 语句 的 两 
个 分 支 中 的 任意 一 个 。 





7 


























14.4.1 条 件 


condition 的 值 要 么 是 TRUE， 要 么 是 FALSE。 如 果 它 是 一 个 向 量 ， 那 么 你 会 收 到 一 条 警告 
如 果 它 是 NA， 那 么 程序 就 会 出 错 。 注 意 你 自己 代码 中 的 这 些 消 息 : 


if (c(TRUE, FALSE)) {} 

#> Warning in if (c(TRUE, FALSE)) í: 

#> the condition has length > 1 and only the 
#> first element will be used 

#> NULL 








if (NA) {} 

#> Error in if (NA) {: missing value where TRUE/FALSE needed 
你 可 以 使 用 || (或 ) 和 && (与 ) 操作 符 来 组 合 多 个 逻辑 表达 式 。 这 些 操作 符 具 有 “短路 效 
应 ”: 只 要 | | 遇 到 第 一 个 TRUE， 那么 就 会 返回 TRUE， 不 再 计算 其 他 表达 式 ， 只 要 8&& 遇 到 第 
一 个 FALSE， 就 会 返回 FALSE， 不 再 计算 其 他 表达 式 。 不 能 在 if 语句 中 使 用 | 或 &， 它 们 是 
向 量化 的 操作 符 ， 只 可 以 用 于 多 个 值 ( 这 就 是 我 们 在 fitter() 函数 中 使 用 它们 的 原因 )。 
如 果 一 定 要 使 用 逻辑 向 量 ， 那 么 你 可 以 使 用 anyo 或 aLL() 函数 将 其 转换 为 单个 逻辑 值 。 
在 测试 相等 关系 时 ， 一 定 要 小 心 ，== 是 向 量化 的 ， 很 容易 输出 多 个 值 。 你 要 么 先 检 查 
结果 的 长 度 是 否 为 1!1， 然 后 使 用 alo 或 any() 国 数 进行 转换 ， 要 么 使 用 非 向 量化 的 
identical() 国 数 。identicatL() 非常 严格 ， 总 是 返回 一 个 TRUE 或 者 一 个 FALSE， 并 且 不 限 
制 参 数 类 型 。 这 意味 着 ， 在 比较 整数 和 双 精 度数 时 ， 一 定 要 注意 : 

identicaL(OL，0) 

#> [1] FALSE 


你 还 需要 提防 浮 点 数 的 问题 : 
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x <- sqrt(2) ^ 2 
X 

#> [1] 2 

X == 2 

#> [1] FALSE 

X 这 

#> [1] 4.44e-16 


解决 方式 是 使 用 dplyr::near() 国 数 进行 比较 ， 我 们 在 3.2.1 节 中 介绍 过 这 个 函数 。 
记 住 ，x == NA 没有 任何 作用 。 


14.4.2 多重 条 件 
你 可 以 将 多 个 if 语句 串联 起 来 : 


if (this) { 
# 做 一 些 操作 
} else if (that) í 
# 做 另外 一 些 操作 
} else { 
# 
} 


但 如 果 你 有 一 长 串 if 语句 ， 那 么 就 要 考虑 重 写 了 。 重 写 的 一 种 方法 是 使 用 switch() 函数 ， 
它 先 对 第 一 个 参数 求 值 ， 然 后 按照 名 称 或 位 置 在 后 面 的 参数 列表 中 匹配 返回 结果 : 


#> function(x, y, op) { 
#> switch(op, 





#> plus = x + y, 

#> minus = x - y, 

#> times = x * y, 

#> divide = x / y, 

#> stop("Unknown op!") 
#> ) 

#> } 


可 以 重 写 一 长 串 if 语句 的 另 一 个 函数 是 cut()， 它 可 以 将 连续 变量 离散 化 。 


14.4.3 ”代码 风格 


if 和 function 后 面 总 是 要 跟着 一 对 大 括号 ({})， 其 中 的 内 容 应 该 缩 进 两 个 空格 。 这 样 通 
过 左 侧 空白 就 可 以 很 容易 地 知道 代码 层次 。 


左 大 括号 不 应 该 自己 占 一 行 ， 而 且 后 面 要 换行 。 右 大 括号 应 该 自己 占 一 行 ， 除 非 后 面 跟着 
eLse。 大 括号 中 的 代码 一 定 要 缩 进 : 
# 好 
if (y < 0 && debug) { 
message("Y is negative") 


) 




















if (y == 0) { 
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log(x) 
} else { 
y ^x 


J 


# 不 好 
if (y < 0 && debug) 
message("Y is negative") 


if (y == 0) { 
log(x) 


else { 
y ^x 
} 
如 果 if 语句 非常 短 ， 可 以 在 一 行内 写 下 ， 那 么 可 以 不 用 大 括号 : 


y <- 10 
x <- if (y < 20) "Too low" else "Too high" 


我 们 建议 只 对 特别 短 的 if 语句 采用 这 种 形式 ， 基 他 情况 下 还 是 完整 形式 更 易于 阅读 : 





if (y < 20) í 

x <- "Too low" 
} else { 

x <- "Too high" 
} 


14.4.4 J 


(Dif 与 ifelse() 的 区 别 是 什么 ?仔细 阅读 帮助 文档 ， 然 后 构建 3 个 示例 ， 说 明 它 们 之 间 
的 关键 区 别 。 


(2) 编写 一 个 欢迎 函数 ， 根 据 每 天 的 不 同时 间 输 出 “上 午 好 ”“ 下 午 好 ”和 “晚上 好 ”。( 提 
示 : 使 用 Lubridate: :now() 函数 默认 的 时 间 参 数 ， 这 会 使 得 函数 测试 更 容易 一 些 ,) 


(3) 实现 fizzbuzz 函数 ， 接 受 一 个 数值 作为 输入 。 如 果 这 个 数值 能 被 3 整除 ， 那 么 就 返 
E “fizz”; 如 果 能 被 5 整除， 就 返回 “buzz”; 如 果 能 同时 被 3 和 5 整除 ， 则 返回 
“fizzbuzz”; 否则 ， 就 返回 这 个 数值 。 一 定 要 先 调试 代码 ， 再 创建 函数 。 


(4) 如 何 使 用 cut() HAREE TARRE if-else 语句 ? 


if (temp <= 0) { 
"freezing" 

} else if (temp <= 10) { 
"sold 

} else if (temp <= 20) í 
"egol" 

} else if (temp <= 30) { 
"warm" 

} else { 
"hot" 


) 























函数 | 193 


如 果 以 上 代码 中 使 用 的 是 <， 不 是 <=， 那 么 应 该 如 何 修改 cut() 函数 的 调用 方式 ?对 于 
这 个 问题 ，cut() 函数 的 其 他 主要 优点 是 什么 ? (提示 : 如 果 temp 中 有 多 个 值 ， 那 么 会 


出 现 什么 情况 ? ) 
(5) 如 果 switch() 函数 和 数值 一 起 使 用 ， 那 么 会 是 什么 情况 ? 





(6) 以 下 switch() 函数 的 作用 是 什么 ?如 果 x 是 e， 那 么 会 出 现 什么 情况 ? 


switch(x, 
a=, 
b = "ab", 
c=, 
d = "ed" 


) 
进行 实测 ， 然 后 仔细 阅读 文档 。 


14.5 ”函数 参数 





a < 一 类 提供 需要 进行 计算 的 数据 ， 另 一 类 控制 计算 过 程 的 细 


。 举 例如 下 。 
。 在 log() 国 数 中 ， 数 据 是 x， 细 节 则 是 对 数 的 底 ， 即 bases 


。 在 mean() 国 数 中 ， 数 据 是 x， 细 节 则 是 从 x 前 后 两 端 (trim) 移 除 多 大 比例 的 数据 ， 以 


及 如 何 处 理 缺 失 值 (na.rm)。 


° 在 t.test() 函数 中 ， 数据 是 x 和 y， 检 验 的 细节 则 是 alternative、mu、paired、var. 


equal 以 及 conf .level 等 设置 。 





° 在 str_c() 国 数 中 ， 你 可 以 向 ... 参数 提供 任意 数量 的 字符 串 作为 数据 ， 连 接 的 细节 则 


H sep 和 collapse 参数 控制 。 








通常 情况 下 ， 数 据 参 数 应 该 放 在 最 前 面 ， 细 市 参数 则 放 在 后 理 














i， 而 且 一 般 都 有 默认 值 。 设 








置 默 认 值 的 方式 与 使 用 命名 参数 调用 函数 的 方式 是 一 样 的 : 
# 使 用 近似 正 态 分 布 计算 均值 两 端的 置信 区 间 


mean_ci <- function(x, conf = 0.95) { 
se <- sd(x) / sqrt(Length(x)) 
alpha <- 1 - conf 
mean(x) + se * qnorm(c(alpha / 2, 1 - alpha / 2)) 





x <- runif(100) 
mean_ci(x) 

#> [1] 0.498 0.610 
mean_ci(x, conf = 0.99) 
#> [1] 0.480 0.628 


默认 值 应 该 几乎 总 是 最 常用 的 值 。 这 种 原则 的 例外 情况 非常 少 ， 除 非 出 于 安全 考虑 。 例 
如 ， 将 na.rn 的 默认 值 设 为 FALSE 是 情 有 可 原 的 ， 因 为 缺失 值 有 时 是 非常 重要 的 。 虽 然 代 





码 中 经 常 使 用 的 是 na.rm = TRUE， 但 是 通过 默认 设置 不 声 不 响 地 忽略 缺失 值 并 不 是 一 种 良 


好 的 做 法 。 
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在 调用 函数 时 ， 我 们 经 党 省略 数 据 参 数 的 名 称 ， 因 为 其 使 用 太 普 遍 了 。 如 果 不 想 使 用 细 方 
参数 的 默认 值 ， 那 么 你 应 该 使 用 细节 参数 的 完整 名 称 : 


# 好 
mean(1:10, na.rm = TRUE) 











# 不 好 
mean(x = 1:10，，FALSE) 
mean(, TRUE, x = c(1:10, NA)) 


如 果 一 个 参数 名 称 的 前 几 个 字母 可 以 唯一 标识 这 个 参数 ， 那 么 你 可 以 通过 这 些 字母 来 引用 
这 个 参数 ， 如 mean(x, n = TRUE)。 但 是 ,通常 要 在 不 会 引起 混淆 的 情况 下 才能 这 样 做 。 
注意 ， 在 调用 函数 时 ， 应 该 在 其 中 = 的 两 端 都 加 一 个 空格 。 逗 号 后 面 应 该 总 是 加 一 个 空格 ， 
过 号 前 面 则 不 要 加 空格 (与 英文 写法 相同 )。 使 用 空格 可 以 使 得 函数 的 重要 部 分 更 易 读 : 

# #f 


average <- mean(feet / 12 + inches, na.rm = TRUE) 








# 不 好 


average<-mean(feet/12+inches,na.rm=TRUE) 


14.5.1 选择 参数 名 称 


参数 名 称 也 很 重要 。R 并 不 在 平 参 数 名 称 ， 但 代码 的 读者 (包括 未 来 的 你 ) 不 能 不 在 乎 ! 
通常 应 该 选择 那些 较 长 的 、 更 具 描 述 性 的 名 称 ， 但 R 中 有 一 些 非常 短 的 通用 名 称 ， 你 应 访 
记 住 它们 。 





 .. X, Ys es 向 量 。 

° w: 权重 向 量 。 

。 df: 数据 框 。 
i, j: 数值 索引 (通常 用 于 表示 行 和 列 )。 
n: 长 度 或 行 的 数量 。 
p: 列 的 数量 。 


除 此 之 外 ， 你 还 可 以 考虑 使 用 现 有 R 国 数 中 的 参数 名 称 。 例 如 ， 使 用 na.rm 来 确定 是 否 需 
要 除去 缺失 值 。 


14.5.2 ”检查 参数 值 

当 编 写 的 函数 越 来 越 多 时 ， 你 有 时 会 记 不 清 某 个 函数 到 底 是 用 来 做 什么 的 。 这 时 就 很 容易 
使 用 无 效 的 参数 来 调用 函数 。 为 了 解决 这 种 问题 ， 应 该 对 函数 参数 进行 明确 的 限制 。 例 
如 ， 假 设 你 已 经 编写 了 一 些 函 数 来 计算 加 权 摘 要 统计 量 : 


wt_mean <- function(x, w) { 
sum(x * w) / sum(x) 





wt_var <- function(x, w) { 
mu <- wt_mean(x, w) 
sum(w * (x - mu) ^ 2) / sum(w) 
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} 
wt_sd <- function(x, w) { 
sqrt(wt_var(x, w)) 


如 果 x 和 w 的 长 度 不 一 样 ， 那 么 会 发 生 什 么 情况 ? 
wt_mean(1:6, 1:3) 
#> [1] 2.19 


这 种 情况 下 ， 由 于 R 的 向 量 循环 机 制 ， 代 码 不 会 出 错 。 


对 重要 的 前 提 条 件 进 行 检查 ， 当 其 不 为 真 时 就 抛 出 一 个 错误 (使 用 stop() 函数 )， 这 
种 非常 好 的 做 法 : 
wt_mean <- function(x, w) { 


if (length(x) != length(w)) í 
stop("`x` and ‘w must be the same length", call. = FALSE) 





er 
| 


sum(w * x) / sum(x) 
) 
当心 ， 别 做 得 太 过 头 。 你 应 该 权衡 在 编写 函数 上 要 花费 的 时 间 与 让 函数 更 健壮 要 花费 的 时 
间 。 例 如 ， 如 果 你 还 需要 添加 一 个 na.rm 参数 ， 那 么 我 们 大 概 不 会 检查 得 如 此 仔细 : 
wt_mean <- function(x, w, na.rm = FALSE) { 


if (!is.logical(na.rm)) { 
stop("`na.rm` must be logical") 





} 
if (length(na.rm) != 1) { 
stop("`na.rm` must be length 1") 


} 
if (length(x) != length(w)) { 
stop("`x` and `w` must be the same length", call. = FALSE) 


if (na.rm) { 
miss <- is.na(x) | is.na(w) 
x <- x[!miss] 
w <- w[!miss] 


sum(w * x) / sum(x) 


s 得 不 偿 失 了 。 比较 好 的 一 个 折 中 方案 是 使 用 内 置 的 stoptfnot() E 函数 ， 
会 检查 每 个 参数 是 否 为 真 ， 如 果 某 个 参数 不 为 真 ， 则 生成 一 条 通用 的 错误 消息 : 
wt_mean <- function(x, w, na.rm = FALSE) { 


stopifnot(is.logical(na.rm), length(na.rm) == 
stopifnot(length(x) == length(w)) 





if (na.rm) í 
miss <- is.na(x) | is.na(w) 
x <- x[!miss] 
w <- w[!miss] 
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sum(w * x) / sum(x) 


wt_mean(1:6, 6:1, na.rm = "foo") 

#> Error: is.logical(na.rm) is not TRUE 
注意 ， 如 果 使 用 了 stopifnot() 函数 ， 那 么 你 实际 上 是 断言 了 哪些 参数 必须 为 真 ， 而 不 是 
检查 哪些 参数 可 能 是 错 的 。 




















14.5.3 AAA C...) 
R 中 的 很 多 函数 可 以 接受 任意 数量 的 输入 : 
SUum(1, 2, 3; &, 5; © T, 8; 9, 10) 
#> [1] 55 
Stiingr otra, Wb bon sdh: taw. w pay 
#> [1] "abcdef" 
这 种 函数 是 如 何 运行 的 呢 ? 它们 需要 一 个 特殊 参数 : ... ( 读 作 点 点 点 )。 这 个 特殊 参数 会 
获 任 意 数量 的 未 匹配 参数 。 


这 个 参数 的 作用 非常 大 ， 因 为 你 可 以 将 它 捕 歼 的 值 传 给 另 一 个 国 数 。 如 果 你 的 函数 是 另 一 
个 函数 的 包装 器 ， 那 么 这 种 一 网 打 尽 的 方式 就 非常 有 用 了 。 例 如 ， 我 们 经 常用 以 下 方式 创 
建 辅助 函数 来 包装 str_c() 函数 : 

commas <- function(...) stringr::str_c(..., collapse = ", ") 


commas(letters[1:10]) 
#> [i] EA b, C, d; e, f; g» h, ts Je 















































rule <- function(..., pad = "-") í 

title <- paste0(...) 

width <- getOption("width") - nchar(title) - 5 

cat(title, " ", stringr::str_dup(pad, width), "\n", sep = "") 
} 


rule("Important output") 
办 > Important output ---------------------------------------- 


这 里 ... 可 以 将 我 们 不 想 处 理 的 所 有 参数 传递 给 str_c()。 虽 然 非 常 方便 ， 但 这 种 技术 是 
有 代价 的 : 所 有 拼写 错误 的 参数 都 不 会 引发 错误 消息 。 这 使 得 我 们 很 难 发 现 输入 错误 : 


x <- c(1, 2) 
sum(x, na.mr = TRUE) 
#> [1] 4 


如 果 想 要 检查 ... 中 的 值 ， 那 么 你 可 以 使 用 list(...). 


14.5.4 ”惰性 求 值 

R 中 的 参数 求 值 的 方式 是 惰性 的 ， 即 直到 需要 参数 时 才 会 进行 求 值 。 这 意味 着 ， 如 果 没 有 
使 用 参数 ， 那 么 它 就 一 直 没 有 实际 值 。 这 是 R 作为 编程 语言 的 一 个 重要 特性 ， 但 在 编写 函 
数 进行 数据 分 析 时 ， 这 个 特性 一 般 是 不 重要 的 。 如 果 想 要 了 解 惰性 求 值 的 更 多 知识 ， 参 考 
http://adv-r.had.co.nz/Functions.html#lazy-evaluation , 
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14.5.5 ”练习 

(1) 函数 调用 commas(letters, collapse = "-") 的 作用 是 什么 ? 为 什么 ? 

(2) 如 果 能 为 pad 参数 提供 多 个 字符 ， 那 真是 太 好 了 ， 例 如 rule("Title", pad = "-+")。 为 什 
么 现在 的 rule() 函数 还 做 不 到 这 一 点 ?应 该 如 何 改 进 ? 

(3) mean() 函数 中 的 trim 参数 的 作用 是 什么 ?” 何 时 应 该 使 用 这 个 参数 ? 

(4) cor() 国 数 的 参数 method 的 默认 值 是 c("pearson", "kendall", "spearman")， 这 个 默认 值 的 
意义 是 什么 ? 默认 情况 下 会 使 用 哪个 值 ? 


14.6 返回 值 

弄 清 楚 函 数 要 返回 什么 结果 通常 是 非常 简单 的 一 件 事 : 其 实 就 是 当初 创建 这 个 函数 的 原 
W! 对 于 返回 值 ， 以 下 两 个 问题 需要 你 仔细 思考 。 

。 提前 返回 能 否 让 函数 更 易 读 ? 

。 你 能 使 得 自己 的 函数 支持 管道 操作 吗 ? 


14.6.1 显 式 返回 语句 


国 数 的 返回 值 通常 是 最 后 一 个 语句 的 值 ， 但 你 可 以 通过 returno 语句 提前 返回 一 个 值 。 我 
们 认为 最 好 有 节制 地 使 用 return() 语句 ， 因 为 提前 返回 的 一 般 都 是 比较 简单 的 情况 。 常 见 
的 提前 返回 原因 就 是 输入 为 空 ; 

complicated_function <- function(x, y, z) { 


if (length(x) == 0 || length(y) == 0) (í 
return(0) 





















































需要 提前 返回 的 另 一 个 原因 是 ，if 语句 的 一 个 分 支 非常 复杂 ， 而 另 一 个 分 支 则 特别 简单 。 
例如 ， 你 可 能 写 出 如 下 的 if 语句 : 


f <- function() í 
if (x) { 





# 操作 
# express 
} else { 
# 返回 一 个 非常 简单 的 值 
} 
} 
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但 如 果 第 一 个 分 支 中 的 代码 非常 长 ， 到 达 else 语句 前 ， 你 可 能 就 已 经 记 不 清 condition 
了 。 解 决 这 个 问题 的 一 种 方法 是 将 简单 情形 提前 返回 : 
f <- function() í 
if (!x) { 


return(something_short) 


# 操作 
# express 


) 
这 样 应 该 会 使 得 代码 更 容易 理解 ， 因 为 不 需要 太 多 的 上 下 文 。 


14.6.2 ”使 得 函数 支持 管道 


如 果 想 要 让 自己 的 函数 支持 管道 操作 ， 那 么 你 应 该 仔细 思考 一 下 返回 值 。 可 以 支持 管道 操 
作 的 函数 有 两 种 主要 类 型 : 转换 函数 与 副作用 函数 。 

转换 函数 会 传 入 一 个 明确 的 “基本 ”对 象 作为 第 一 个 参数 ， 对 这 个 对 象 进行 处 理 后 ， 再 将 
其 返回 。 例 如 ， 在 dplyr 中 ， 这 个 关键 的 对 象 就 是 数据 框 。 如 果 能 够 确定 在 自己 的 领域 内 
应 该 使 用 哪 种 数据 类 型 ， 那 么 你 就 可 以 让 自己 的 国 数 支 持 管 道 操作 了 。 

副作用 函数 经 常用 来 执行 某 种 行为 ， 比 如 绘图 或 保存 文件 ， 而 不 是 转换 对 象 。 这 些 函 数 会 
“悄悄 地 ”返回 第 一 个 参数 ， 因 此 ， 上 默认 情况 下 ， 第 一 个 参数 不 显示 在 输出 中 ， 但 仍然 可 
以 由 管道 操作 使 用 。 例 如 ， 以 下 这 个 简单 函数 会 输出 一 个 数据 框 中 的 缺失 值 的 数量 : 

show_missings <- function(df) { 


n <- sum(is.na(df)) 
cat("Missing values: ", n, "Vn", sep = "") 









































invisible(df) 
} 


如 果 以 交互 式 方式 调用 ， 那 么 invisible) 函数 的 作用 就 是 使 得 输入 参数 df 不 显示 在 输出 中 : 


show_missings(mtcars) 
#> Missing values: 0 


但 是 df 确实 是 在 输出 中 的 ， 只 是 默认 不 显示 : 


x <- show_missings(mtcars) 
#> Missing values: 0 
class(x) 

#> [1] "data.frame" 
dim(x) 

#> [1] 32 11 


而 且 我 们 还 可 以 在 管道 中 使 用 它 : 
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mtCars %>% 
show_missings() %>% 
mutate(mpg = ifelse(mpg < 20, NA, mpg)) %>% 
show_missings() 

#> Missing values: 0 

#> Missing values: 18 


14.7 ”环境 


本 章 的 最 后 内 容 是 函数 的 环境 。 当 刚 开 始 编写 函数 时 ， 不 需要 对 环境 有 多 深入 的 理解 。 但 
我 们 还 是 应 该 了 解 一 些 关于 环境 的 知识 ， 因 为 这 些 知识 对 于 理解 国 数 如 何 运 行 非常 重要 。 
国 数 的 环境 决定 了 R 如 何 寻 找 对 象 的 值 。 例 如 ， 查 看 以 下 函数 : 


f <- function(x) { 
x+y 








在 很 多 编程 语言 中 ， 这 上 段 代码 会 引发 一 个 错误 ， 因 为 函数 没有 定义 y。 这 种 代码 在 R 中 是 
有 效 的 ， 因 为 R 使 用 称 为 词法 定 界 的 一 种 规则 来 搜索 对 象 的 值 。 因 为 y 没有 在 函数 中 进行 
定义 ， 所 以 R 会 在 定义 函数 的 环境 中 寻找 y: 

y <- 100 

f(10) 

#> [1] 110 














y <- 1000 

f(10) 

#> [1] 1010 
这 种 方式 似乎 是 解决 程序 bug 的 一 个 秘诀 ， 但 实际 上 最 好 不 要 故意 写 出 这 种 函数 。 总 体 来 
说 ， 这 种 代码 不 会 引起 大 多 问题 (特别 是 为 了 得 到 干净 的 环境 而 经 常 重新 启动 R IF) 


从 编程 语言 的 角度 来 看 ， 这 种 方式 的 优点 是 可 以 使 得 R 非常 一 致 ， 因 为 使 用 同样 的 规则 
来 搜索 所 有 对 象 。 对 于 函数 fF()， 你 可 以 通过 函数 定义 让 { 和 + 具有 一 些 出 人 意料 的 行为 ， 
比如 以 下 这 个 恶作剧 |: 
`+` <- function(x, y) í 
if (Funuf(i) < 0.1) í 
sum(x, y) 


} else { 
sum(x, y) * 1.1 


} 
table(replicate(1000, 1 + 2)) 


#> 3 3.3 

#> 100 900 

rm(`+`) 
这 种 重 定义 在 R 中 是 很 普遍 的 一 种 现象 。R 很 少 对 编程 能 力 进行 限制 ， 你 可 以 做 很 多 其 他 
语言 中 无 法 进行 的 事情 ， 甚 至 是 99% 的 人 都 认为 极 不 明智 的 那些 事情 (比如 重 定义 加 法 运 
算 )。 但 是 ， 正 是 这 种 能 力 和 灵活 性 才 使 得 ggplot2 和 dplyr 工具 开发 成 为 可 能 。 如 何 充分 利 
用 这 种 灵活 性 已 经 超出 了 本 书 范围 ， 如 果 想 要 学 习 这 方面 的 知识 ， 可 以 参考 Advanced R, 
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15.1 简介 


到 目前 为 止 ， 我 们 已 经 介绍 过 了 tibble 以 及 支持 tibble 的 R 包 。 但 是 ， 当 开始 编写 国 数 或 
者 更 加 深入 地 学 习 R 时 ， 你 就 会 发 现 需要 使 用 构成 tibble 的 基础 对 象 ， 即 向 量 。 如 果 曾 经 
以 更 加 传统 的 方式 学 习 过 RR， 那 么 你 应 该 已 经 对 向 量 非常 熟悉 ， 因 为 多 数 R 学 习 资 源 都 是 
先 介绍 向 量 ， 然 后 才 扩 展 到 tibble 的 。 我 们 则 认为 应 该 从 tibble 开始 ， 因 为 它 是 即 学 即 用 









































的 ， 熟悉 tibble 后 ， 再 来 学 习 构 成 它 的 基础 成 分 比较 好 。 

向 量 特别 重要 ， 因 为 绝 大 多 数 自 定 义 国 数 都 要 使 用 向 量 。 也 可 以 直接 编写 使 用 tipble 的 国 
数 〈 比 如 ggplot2 和 dplyr 中 的 函数 )， 但 从 目前 来 看 ， 支 持 这 种 函数 编写 方式 的 工具 还 很 
不 成 熟 。 我 们 正在 开发 一 种 更 好 的 工具 ， 参 见 https://github.com/hadley/lazyeval。 即 使 有 了 





更 好 的 工具 ， 你 还 是 需要 理 


准备 工作 


E 解 向 量 ， 





因为 使 用 向 量 更 容易 开发 出 用 户 友好 的 高 阶 函 数 。 


本 章 的 重点 在 于 介绍 R 基础 包 中 的 数据 结构 ， 因 此 无 须 加 载 任何 R 包 。 但是， 为 了 避免 R 
基础 包 中 的 一 些 不 一 致 现象 ， 我 们 会 使 用 purrr 包 中 的 少量 函数 。 


library(tidyverse) 

#> Loading tidyverse: 
#> Loading tidyverse: 
#> Loading tidyverse: 
#> Loading tidyverse: 
#> Loading tidyverse: 


#> Conflicts with tidy packages 


#> filter(): dplyr, s 
#> lag(): dplyr,. s: 


ggplot2 
tibble 
readr 
purrr 
dplyr 


tats, 
tats 
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15.2 向量 基础 


向 量 的 类 型 主要 有 两 种 。 


。 原子 向 量 ， 其 共有 6 种 类 型 : 逻辑 型 、 整 型 、 双 精度 型 、 字 符 型 、 复 数 型 和 原始 型 。 
型 和 双 精 度 型 向 量 又 统称 为 数值 型 向 量 。 
列表 ， 有 时 又 称 为 递归 向 量 ， 因 为 列表 中 也 可 以 包含 其 他 列表 。 


原子 向 量 与 列表 之 间 的 主要 区 别 是 ， 原 子 向 量 中 的 各 个 值 都 是 同 种 类 型 的 ， 而 列表 中 的 各 
个 值 可 以 是 不 同类 型 的 。 NULL 是 一 个 与 向 量 相关 的 对 象 ， 用 于 表示 空 向 量 (与 表示 向 量 中 
的 一 个 值 为 空 的 NA 不同 )， 通 常 指 长 度 为 0 的 向 量 。 图 15-1 总 结 了 各 种 向 量 之 间 的 联系 。 



































向 
原子 向 量 NULL 

ee 
逻辑 型 


数值 型 列表 


整 弄 
双 精度 型 


字符 型 


ll 


























15-1: R 向 量 类 型 的 层次 图 
每 个 向 量 都 有 两 个 关键 属性 。 
类 型 。 你 可 以 使 用 typeof() 国 数 来 确定 向 量 的 类 型 , 


typeof (letters) 

#> [1] "character" 
typeof(1:10) 

#> [1] "integer" 


° 长 度 。 你 可 以 使 用 length) 函数 来 确定 向 量 的 长 度 : 


x<- trst("a", "D", 4:10) 

length(x) 

W> [1] 3 
还 可 以 向 向 量 中 任意 添加 额外 的 元 数据 ， 这 些 元 数据 称 为 特性 。 特 性 可 以 用 来 创建 扩展 向 
量 ， 以 执行 一 些 新 的 操作 。 比 较 重 要 的 扩展 向 量 有 4 种 类 型 。 


基于 整 型 向 量 构建 的 因子 。 
。 基于 数值 型 向 量 构建 的 日 期 和 日 期 时 间 。 
。 基于 列表 构建 的 数据 框 和 tibble。 


本 章 将 由 浅 入 深 地 介绍 这 些 重要 向 量 。 首 先是 原子 向 量 、 然 后 是 列表 ， 最 后 是 扩展 向 量 。 























15.3 重要 的 原子 向 量 


4 种 最 重要 的 原子 向 量 类 型 是 逻辑 型 、 整 型 、 双 精度 型 和 字符 型 。 原 始 型 与 复数 型 很 少 在 
数据 分 析 中 使 用 ， 因 此 不 做 介绍 。 


15.3.1 逻辑 型 


逻辑 型 向 量 是 最 简单 的 一 种 原子 向 量 ， 因 为 它们 只 有 3 个 可 能 的 取 值 : FALSE、TRUE 和 NA。 
一 般 可 以 通过 比较 运算 符 来 构建 逻辑 向 量 ， 我 们 已 经 在 3.2.1 节 中 介绍 过 这 种 运算 符 。 你 
还 可 以 通过 cO 函数 来 手工 创建 逻辑 向 量 : 

1:10 %% 3 == 0 

#> [1] FALSE FALSE TRUE FALSE FALSE 

#> [2] TRUE FALSE FALSE TRUE FALSE 


c(TRUE, TRUE, FALSE, NA) 
#> [1] TRUE TRUE FALSE NA 


15.3.2 ”数值 型 


整 型 与 双 精 度 型 向 量 统称 为 数值 型 向 量 。R 中 默认 数值 是 双 精 度 型 的 。 如 果 想 要 创建 整 型 
数值 ， 可 以 在 数字 后 面 加 一 个 上 : 

typeof(1) 

#> [1] "double" 

typeof(1L) 

#> [1] "integer" 

J. SE 

#> [1] 145 


整 型 和 双 精 度 型 之 间 的 区 别 一 般 并 不 重要 ， 但 你 需要 注意 其 中 两 个 重要 区 别 。 
双 精 度 型 是 近似 值 。 双 精度 型 表示 的 是 浮 点 数 ， 不 能 由 固定 数量 的 内 存 精 确 表示 。 这 意 
味 着 你 应 该 将 所 有 双 精 度数 当成 近似 值 。 例 如 ，2 的 平方 根 的 平方 是 多 少 ? 


X <=. Sait(2) ^ 2 

x 

# [1] 2 

x-2 

#> [1] 4.44e-16 
在 处 理 浮 点 数 时 ， 这 种 现象 非常 普遍 ， 多 数 计算 都 包括 一 些 近似 误差 。 在 比较 浮 点 数 
时 ， 不 能 使 用 ==， 而 应 该 使 用 dpLyr: :near()， 后 者 可 以 容忍 一 些 数据 误差 。 
整 型 数据 有 1 个 特殊 值 NA， 而 双 精 度 型 数据 则 有 4 个 特殊 值 : NA. NaN. Inf 和 -Inf。 
其 他 3 个 特殊 值 都 可 以 由 除法 产生 : 


€(=4, 0, j) / O 
#> [1] -Inf NaN Inf 


不 要 使 用 = 来 检查 这 些 特殊 值 ， 而 应 该 使 用 辅助 函数 is.finite(), is.infinite() 和 


is.nan()。 



































is.finite() X 


is.infinite() X 
is.na() X X 
is.nan() X 


15.3.3 ”字符 型 


字符 向 量 是 最 复杂 的 一 种 原子 向 量 ， 因 为 其 每 个 元 素 都 是 一 个 字符 串 ， 而 字符 串 可 以 包含 
任意 数量 的 数据 。 


第 10 章 中 已 经 介绍 了 很 多 处 理 字符 串 的 方法 。 这 里 我 们 要 强调 关于 字符 串 基础 实现 的 一 
个 重要 特征 : R 使 用 的 是 全 局 字符 串 地 。 这 意味 着 每 个 唯一 的 字符 串 在 内 存 中 只 保存 一 次 ， 
每 次 对 这 个 字符 串 的 使 用 都 指向 这 段 内 存 ， 这 样 可 以 减少 复制 字符 串 所 需 的 内 存 空间 。 你 
可 以 使 用 pryr::object_size() 函数 来 查看 这 种 处 理 的 效果 : 

x <- "This is a reasonably long string." 


pryr::object_size(x) 
#> 136 B 





























y <- rep(x, 1000) 
pryr::object_size(y) 
#> 8.13 kB 


y 所 占用 的 内 存 不 是 x 的 1000 倍 ， 因 为 y 中 的 每 个 元 素 都 只 是 指向 一 个 字符 串 的 指针 。 因 
为 一 个 指针 占 8 个 字 节 ， 所 以 1000 个 指针 以 及 一 个 136 字 节 的 字符 串 所 占用 的 内 存 空间 
JÆ 8 * 1000 + 136 = 8.13KB。 


15.3.4 ”缺失 值 


注意 ， 每 种 类 型 的 原子 向 量 都 有 自己 的 缺失 值 : 


NA # 逻辑 型 
#> [1] NA 

NA_integer_ # 整 型 

#> [1] NA 

NA_real_ # 双 精 度 型 
#> [1] NA 
NA_character_ # 字符 型 
#> [1] NA 


一 般 不 需要 考虑 类 型 问题 ， 因 为 你 可 以 一 直 使 用 NA，R 会 通过 隐 含 的 强制 类 型 转换 规则 
(后 面 会 介绍 ) 将 其 转换 为 正确 的 类 型 。 但 是 ， 因 为 有 些 国 数 对 输入 的 要 求 非常 严格 ， 所 
以 你 应 该 了 解 这 些 知 识 ， 做 到 有 备 无 患 ， 以 便 在 需要 时 可 以 指定 相应 的 类 型 。 
































15.3.5 ”练习 


(L) FHIR is.finite(x) 和 !is.infinite(x) 之 间 的 区 别 。 








(2) 阅读 dptyr: :near() 函数 的 源 代码 (提示 : 要 想 看 到 源 代 码 ， 去 掉 ()， 只 输入 函数 名 称 
即 可 )。 它 是 如 何 运 行 的 ? 


(3) 逻辑 向 量 可 以 取 3 个 可 能 的 值 。 整 数 向 量 有 多 少 个 可 能 的 值 ? 双 精 度 向 量 可 以 取 多 少 个 
值 ? 使 用 Google 做 一 些 这 方面 的 研究 。 


(4) 通过 头脑 风暴 ， 找 出 至 少 4 种 将 双 精 度 型 转换 为 整 型 的 方法 。 精 确 描述 它们 之 间 的 区 别 。 
(5)readr 包 中 的 哪些 函数 可 以 将 一 个 字符 串 转 换 为 逻辑 型 、 整 型 和 双 精 度 型 向 量 ? 


15.4 使 用 原子 回 量 


我 们 已 经 弄 清楚 了 不 同类 型 的 原子 向 量 间 的 差别 ， 接 下 来 将 讨论 处 理 原 子 向 量 的 几 种 重要 
操作 ， 有 具体 如 下 。 


。 如 何 将 一 种 原子 向 量 转换 为 另 一 种 ， 以 及 何 时 系统 会 自动 转换 。 
。 如 何 分 辨 出 一 个 对 象 是 哪 种 特定 类 型 的 向 量 。 

。 在 处 理 长 度 不 同 的 向 量 时 ， 会 发 生 什么 情况 。 

。 如 何 命名 向 量 中 的 元 素 。 

° 如 何 提取 出 感 兴趣 的 元 素 。 


15.4.1 强制 转换 
将 一 种 类 型 的 向 量 强制 转换 成 另 一 种 类 型 的 方式 有 两 种 。 


° 显 式 强制 转换 : 当 调 用 as.logical(), as.integer(). as.double() 或 as.character() 
这 样 的 函数 进行 转换 上 时， 使 用 的 就 是 显 式 强制 转换 。 只 要 发 现 需 要 进行 显 式 强制 转换 ， 
那么 你 就 需要 检查 一 下 ， 看 看 能 否 在 之 前 的 某 个 步骤 中 解决 这 个 问题 。 例 如 ， 你 可 能 需 
要 修改 readr 中 的 coL_type 的 设置 。 

。 隐 式 强制 转换 ， 当 在 特殊 的 上 下 文 环 境 中 使 用 上 向 量 ， 而 这 个 环境 又 要 求 使 用 特定 类 型 的 
向 量 时 ， 就 会 发 生 隐 式 强制 转换 。 例 如 ， 在 数值 型 摘要 函数 中 使 用 逻辑 向 量 ， 或 者 在 需 
要 整 型 向 量 的 函数 中 使 用 了 双 精 度 型 向 量 时 。 


因为 显 式 强 制 转换 使 用 得 相对 较 少 ， 而 且 非 常 容易 理解 ， 所 以 我 们 重点 介绍 隐 式 强制 转 
换 。 


你 已 经 见 过 了 最 重要 的 一 种 隐 式 强制 转换 ， 在 数值 环境 中 使 用 逻辑 向 量 。 这 种 情况 下 ， 
TRUE 转换 为 1，FALSE 转换 为 0。 这 意味 着 对 这 辑 向 量 求 和 的 结果 就 是 其 中 真 值 的 个 数 ， 软 
辑 向 量 的 均值 就 是 其 中 真 值 的 比例 : 


x <- sample(20, 100, replace = TRUE) 
y <- x> 10 

sum(y) # 大 于 16 的 数 有 多 少 个 ? 

#> [1] 44 

mean(y) # 大 于 10 的 数 的 比例 是 多 少 ? 
#> [1] 0.44 


你 或 许 还 会 看 到 (通常 是 较 和 久远 的 ) 有 些 代码 使 用 了 反 向 的 隐 式 强制 转换 ， 即 从 整 型 转换 
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为 逻辑 型 : 


if (length(x)) í 
# 进行 某 种 操作 
} 











在 以 上 示例 中 ，0 转换 为 FALSE， 其 他 任何 值 都 转换 为 TRUE。 我 们 认为 这 样 做 会 让 代码 更 
难 理解 ， 因 此 不 推荐 这 种 方式 ， 而 是 应 该 明确 地 设 定 条 件 : Length(x) > 0, 


当 试 图 使 用 c() 函数 来 创建 包含 多 种 类 型 元 素 的 向 量 时 ， 清 楚 如 何 进行 类 型 转换 也 是 非常 
重要 的 。 这 时 总 是 会 统一 转换 为 最 复杂 的 元 素 类 型 ; 

typeof(c(TRUE, 1L)) 

#> [1] "integer" 

typeof(c(1L, 1.5)) 

#> [1] "double" 

typeof (c(1.5, "a")) 

#> [1] "character" 


原子 向 量 中 不 能 包含 不 同类 型 的 元 素 ， 因 为 类 型 是 整个 向 量 的 一 种 属性 ， 不 是 其 中 单个 元 
素 的 属性 。 如 果 需 要 在 同一 个 向 量 中 包含 混合 类 型 的 元 素 ， 那 么 就 需要 使 用 列表 ， 我 们 很 
快 就 会 对 其 进行 介绍 。 


15.4.2 ”检验 函数 


有 时 我 们 需要 根据 问 量 的 类 型 进行 不 同 的 操作 。 检 验 癌 量 类 型 的 一 种 方法 是 使 用 typeof() 
函数 ， 男 一 种 方法 是 使 用 检验 函数 来 返回 TRUE 或 FALSE, R 基础 包 中 提供 了 很 多 这 样 的 函 
数 ， 如 is.vector() 和 is.atomic()， 但 它们 经 常 返回 出 人 意料 的 结果 。 更 可 靠 的 方法 是 使 
用 purrr 包 提 供 的 is_* 函数 族 ， 以 下 表格 总 结 了 它们 的 使 用 方式 。 















































is_logical() X 

is_integer() X 

is_double() X 

is_numeric() X x 

is_character() X 
is_atomic() X X X X 
is_list() x 
is_vector() x x x x X 


以 上 每 个 函数 都 配 有 一 个 “标量 ”版 本 ， 比 如 is_scalar_atomic()， 它 们 可 以 检验 长 度 为 
1 的 向 量 。 这 些 函 数 非常 有 用 ， 例 如 ， 如 果 想 要 检验 函数 的 一 个 参数 是 否 为 单个 逻辑 值 ， 
那么 就 可 以 使 用 这 种 函数 。 


15.4.3 ”标量 与 循环 规则 


R 可 以 隐 式 地 对 向 量 类 型 进行 强制 转换 ， 同 样 地 ， 也 可 以 对 向 量 长 度 进行 强制 转换 。 这 种 
转换 称 为 向 量 循环 ， 因 为 R 会 将 较 短 的 向 量 重复 (或 称 循环 ) 到 与 较 长 的 向 量 相 同 的 长 度 。 
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混合 使 用 向 量 和 “标量 ”时 ， 向 量 循 环 是 最 有 用 的 。 我 们 在 标量 上 加 了 3 引号， 因为 R 中 没 
有 真正 的 标量 ， 只 有 长 度 为 1 的 向 量 。 正 因为 没有 标量 ， 所 以 R 的 多 数 内置 函 数 都 是 向 量 
化 的 ， 即 可 以 在 数值 的 一 个 向 量 上 进行 操作 。 这 就 是 以 下 代码 可 以 运行 的 原因 。 

sample(10) + 100 

办 > [1] 109 108 104 102 103 110 106 107 105 101 

runif(10) > 0.5 


#> [1] TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE 
#> [10] TRUE 


在 R 中， 基本 的 数学 运算 是 使 用 向 量 来 进行 的 ， 这 意味 着 在 进行 简单 数据 计算 时 ， 根 本 不 
需要 执行 显 式 迭 代 。 

如 有 果 两 个 长 度 相同 的 向 量 相 加 ， 或 者 一 个 向 量 和 一 个 “标量 ” 相 加 ， 那 么 结果 是 显而易见 
WJ, 但是， 如果 两 个 长 度 不 同 的 向 量 相 加 ， 那 么 会 出 现 什 么 情况 呢 ? 


1:10 + 1:2 
#> [1] 2 4 4 6 6 8 81010 12 


这 里 R 会 扩展 较 短 的 向 量 ， 使 其 与 较 长 的 向 量 一 样 长 ， 这 个 过 程 就 称 作 向 量 循环 。 这 个 过 
程 是 默默 进行 的 ， 除 非 较 长 向 量 的 长 度 不 是 较 短 向 量 长 度 的 整数 倍 : 


1:10 + 1:3 

#> Warning in 1:10 + 1:3: 

#> longer object length is not a multiple of shorter 
#> object length 

#> [1] 2 4 6 5 7 9 8101211 


虽然 可 以 创建 非常 简洁 优雅 的 代码 ， 但 向 量 循环 也 可 以 悄 无 声息 地 掩盖 某 些 问题 。 为 此 ， 
只 要 循环 的 不 是 一 个 标量 ， 那 么 tidyverse 中 的 向 量化 函数 就 会 抛 出 一 条 错误 消息 。 如 果 确 
实 想 要 执行 本 向 量 循环 ， 那 么 你 需要 使 用 rep() 国 数 手 工 完 成 : 
tubble(x = 1:4, v = 1:2) 


#> Error: Variables must be length 1 or 4. 
#> Problem variables: 'y' 


























tubble(x = 1:4, y = rep(1:2, 2)) 
#> # A tibble: 4 x 2 


#> X y: 
#> <tint> <int> 
#> 1 1 1 
#> 2 2 2 
#> 3 3 1 
#4 4 2 


tibble(x = 1:4, y = rep(1:2, each = 2)) 
#> # A tibble: 4 x 2 


#> x y 
#> <int> <int> 
#> 1 T 1 
#> 2 2 1 
#3 3 2 
#> 4 4 2 
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15.4.4 向 量 命名 
所 有 类 型 的 向 量 都 是 可 以 命名 的 。 你 可 以 在 使 用 cO 函数 创建 向 量 时 进行 命名 : 


G(X si, y s2 2a) 
#> xyz 
#> 1 2 4 


也 可 以 在 向 量 创建 完成 后 ， 使 用 purrr: :set_names() KARMA: 


set_names(1:3, c("a", "b", "c")) 
W>. gQ b: ë 
#> 1 2 3 


命名 向 量 对 于 接 下 来 要 介绍 的 向 量 取 子 集 操作 特别 重要 。 


15.4.5 向量 取 子 集 


我 们 可 以 使 用 dplyr::filter() 函数 在 tibble 中 篇 先行 。 但 ftLter() 函数 只 能 筛选 tbble， 
因此 要 想 筛 选 向 量 ， 我 们 需要 使 用 一 个 新 工具 : L 就 是 取 子 集 函 数 ， 调 用 形式 是 x[a]。 你 
可 以 使 用 以 下 4 种 形式 来 完成 向 量 取 子 集 操作 。 

使 用 仅 包含 整数 的 数值 向 量 。 整 数 要 么 全 部 为 正 数 ， 要 么 全 部 为 负数 ， 或 者 为 0。 

使 用 正 整数 取 子 集 时 ， 可 以 保持 相应 位 置 的 元 素 : 


x <- c("one", "two", "three", "four", "five") 
x[e(3; 2, 5)] 
#> [1] "three" "two" "five" 


位 置 可 以 重复 ， 这 样 可 以 生成 比 输入 更 长 的 输出 结果 : 


xel WV S 8, 5; 25] 
#> [a] "one" "one" "five" "five" "five" "bie" 


使 用 负 整数 取 子 集 时 ， 会 丢弃 相应 位 置 的 元 素 : 


x[c(-1, -3, -5)] 
#> [1] "two" “Your"” 


正 数 与 负数 混合 使 用 则 会 引发 一 个 错误 : 


x[c(1, -1)] 
#> Error Ti xFeC1, =1)]: 
#> only 0's may be mixed with negative subscripts 


这 条 错误 消息 中 提 到 了 使 用 0 来 取 子 集 ， 这 样 不 会 返回 任何 值 : 

x[0] 

#> character (0) 

这 种 操作 一 般 没 什么 用 处 ， 如 果 想 要 创建 一 个 特殊 的 数据 结构 来 检验 函数 ， 那 么 它 或 许 
还 有 点 帮助 。 

















使 用 逻辑 向 量 取 子 集 。 这 种 方式 可 以 提取 出 TRUE 值 对 应 的 所 有 元 素 ， 一 般 与 比较 函数 
结合 起 来 使 用 效果 最 佳 : 


K: <= 

















c(10, 3, NA, 5, 8, 1, NA) 


# x 中 的 所 有 非 缺 失 值 


Xx[ 


s.na(x)] 


#> [1] 10 3 5 8 1 





# x 中 的 所 有 偶数 值 (或 缺失 值 ) 
] 


x[x %% 2 == 0 
#> [1] 10 NA 8 M 


如 有 果 是 命名 向 量 ， 那 么 可 以 使 用 字符 向 量 来 取 子 集 : 


x <- c(abc = 1, def = 2, xyz = 5) 
xie" xyz"; "def")] 

#> xyz def 

#> 5 2 








与 使 用 正 整数 取 子 集 一 样 ， 你 也 可 以 使 用 字符 向 量 重复 取出 单个 元 素 。 


° 取 子 集 的 最 简 方 式 就 是 什么 都 不 写 : x[]， 这 样 就 会 返回 x 中 的 全 部 元 素 。 这 种 方式 对 
于 向 量 取 子 集 没有 什么 用 处 ， 但 对 于 和 矩阵 (或 其 他 高 维 数据 结构 ) 取 子 集 则 非常 重要 ， 























因为 这 样 可 以 取出 所 有 的 行 或 所 有 的 列 ， 只 要 将 行 或 列 保持 为 空 即 可 。 例 如 ， 如 果 x 是 


二 维 的， 那么 x[1，] 可 以 选取 出 第 1 行 和 所 有 列 ，x[，-1] 则 可 以 选取 出 所 有 行 和 除 第 
1 列 外 的 所 有 列 。 


如 果 想 要 学 习 取 子 集 操作 的 更 多 应 用 ， 可 以 参考 AdvancedR 中 的 “Subsetting” 一 章 。 


[ 有 一 个 重要 的 变 体 [[。[[ 从 来 都 是 只 提取 单个 元 素 ， 并 丢弃 名 称 。 当 想 明 确 表明 需要 提 
取 单 个 元 素 时 ， 你 就 应 该 使 用 [[， 比 如 在 一 个 for 循环 中 。[ 和 [[ 的 区 别 对 于 列表 来 说 更 


加 重要 ， 


我 们 很 快 就 会 对 其 进行 讨论 。 


15.4.6 ”练习 
(1) mean(is.na(x)) 可 以 告诉 你 关于 向 量 x 的 何 种 信息 ? sum(!is.finite(x)) 呢 ? 


(2) 仔 细 阅 读 is.vector() 函数 的 文档 ， 它 到 底 是 用 于 检验 什么 的 ”为 什么 is.atomic() K 
数 的 结果 与 前 面 对 原 子 向 量 的 定义 不 符 ? 


(3) 比较 并 对 比 setNames() 函数 和 purrr::set_names() 国 数 。 
(4) 创建 能 够 接受 一 个 向 量 作为 输入 的 函数 ， 并 返回 以 下 值 。 





e. ° Tp 

















最 后 一 个 元 素 。 应 该 使 用 [ 还 是 [[ ? 
， 偶 数位 置 上 的 元 素 。 

， 除 最 后 一 个 元 素 外 的 所 有 元 素 。 

. 仅 返 回 偶数 (不 包括 缺失 值 )。 
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(5) 为 什么 x[ -which(x > 0)] 和 x[x <=6 ] 不 一 样 ? 





(6) 如 有 果 使 用 比 向 量 长 度 大 的 整数 来 取 子 集 ， 那 么 会 发 生 什 么 情况 ? 如 果 使 用 不 存在 的 名 称 


来 取 子 集 ， 那 么 又 会 发 生 什么 情况 ? 


15.5 递归 回 量 《列表 ) 


列表 是 建立 在 原子 向 量 基 础 上 的 一 种 复杂 形式 ， 因 为 列表 中 可 以 包含 其 他 列表 。 
使 得 列表 特别 适合 表示 层次 结构 或 树 形 结构 。 你 可 以 使 用 List() 函数 创建 列表 : 


X <= sti; 2; 3) 





这 种 性 质 


在 处 理 列表 时 ，str() 函数 是 一 个 非常 有 用 的 工具 ， 因 为 其 重点 关注 列表 结构 ， 而 不 是 列 


表 内 容 : 


str(x) 

#> List of 3 

#> $: num 1 
#> $: num 2 
#> $: num 3 


x_named <- list(a = 1, b = 2, c = 3) 
str(x_named) 

Ws Lst Of 3 

#> $a: num 1 

#> $b: num 2 

#> $c: num 3 


与 原子 向 量 不 同 ，List() 中 可 以 包含 不 同类 型 的 对 象 : 


y <- List("a"，1L，1.5，TRUE) 
str(y) 

#> List of 4 

W Eh "q 

#> Š +; int 1 

#> S ¿num 1.5 

#> $ : logi TRUE 


列表 甚至 可 以 包含 其 他 列表 ! 


Z. <= Let(llist(t, 2), list(3,..4)) 
str(z) 

Ws Listof 2 

As te Of 2 
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办 > sS + num i 


#> s6 a ppum 2 
#> S List of 2 
> seS 2 nüm 3. 
#> ..Š : num 4 


15.5.1 列表 可 视 化 
为 了 解释 清楚 更 复杂 的 列表 操作 国 数 ， 列 表 的 可 视 化 表示 大 有 神 益 。 例 如 ， 思 考 以 下 3 种 
列表 : 

xi <s tiste, 2), ED 455 


X2 és Uet(ltst(t, 2. Vist(3, 45) 
X3 <= ust( Uust(2, LUst(3))) 


我 们 可 以 用 以 下 图 形 来 表示 它们 : 

















这 种 可 视 化 表示 遵循 以 下 3 个 原则 。 


列表 用 贺 角 矩形 表示 ， 原 子 向 量 用 直角 和 矩形 表示 。 

子 向 量 绘制 在 父 向 量 中 ， 而 且 背 景 要 比 父 向 量 深 一 些 ， 这 样 更 容易 表示 出 层次 结构 。 
子 向 量 的 方向 (也 就 是 其 行 和 列 ) 并 不 重要 ， 我 们 只 在 示例 中 表示 出 一 行 或 一 列 ， 有 时 
是 为 了 节省 空间 ， 有 时 是 为 了 说 明 一 个 重要 的 属性 。 


15.5.2 ”列表 取 子 集 
列表 取 子 集 有 3 种 方式 ， 接 下 来 我 们 通过 列表 a 来 说 明 : 


a. <= Ulst(a = 4:3, b = "a string"; c = pt, St， -5)) 


使 用 [ 提取 子 列表 。 这 种 方式 的 结果 总 是 一 个 列表 : 


str(a[1:2]) 

#> List of 2 

#s $ a; int [1:3] 3 2 3 
#> $ b: chr "à string" 
str(a[4]) 

#> List of 1 

#> -5 diList of 2 

#> |+ Š + num -í 

#> sS 2 nüm -5 


和 向 量 一 样 ， 你 可 以 使 用 逻辑 向 量 、 整 数 向 量 或 字符 向 量 来 提取 子 列表 。 



































使 用 [[ 从 列表 中 提取 单个 元 素 。 这 种 方式 会 从 列表 中 删除 一 个 层次 等 级 : 


str(a[[1]]) 

#> nt Pi:3] 1 2 3 
str(a[[4]]) 

Ws List of 2 

#> $: num -1 

#> $: num -5 





$ 是 提取 列表 命名 元 素 的 简单 方式 ， 其 作用 与 [[ 相同 ， 只 是 不 需要 使 用 括号 : 
asa 
Ws E E 
a[["a"]] 
#> [1] 3 2 3 


对 于 列表 来 说 ,，[ 和 [[ 之 间 的 区 别 是 非常 重要 的 ， 因 为 [[ 会 使 列表 降低 一 个 层级 ， 而 
[ 则 会 返回 一 个 新 的 、 更 小 的 列表 。 你 可 以 通过 图 15-2 中 的 可 视 化 表示 来 比较 一 下 以 上 代 
码 和 输出 结果 。 












































a a[1: 2] a[4] 
| J —= 
Ce [Lek] 
klis] lis] 
一 K. 
a[[4]] a[[4]][1] a[[4]][[1]] 


图 15-2: 列表 取 子 集 的 可 视 化 表示 











15.5.3 ”调料 列表 
[和 [[ 之 间 的 区 别 非常 重要 ,但 二 者 很 容易 混淆。 为 了 帮助 记忆 ， 我 们 使 用 以 下 特殊 的 胡 
椒 负 来 模拟 列表 : 











如 果 这 个 胡椒 缸 表示 列表 x， 那 么 x[1] 就 是 装 有 一 个 胡椒 袋 的 胡椒 包 : 





x[2] 也 是 一 样 ， 但 它 里 面 装 的 是 第 二 个 胡椒 袋 。x[1:2] 就 是 装 有 两 个 胡椒 袋 的 一 个 胡椒 把 。 
x[[1]] 则 是 个 胡椒 袋 : 
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如 果 想 要 查看 胡椒 袋 里 面 的 内 容 ， 那 么 你 应 该 使 用 x[[1]][[1]] : 





15.5.4 yJ 
(1) 以 鞠 套 集合 的 方式 画 出 以 下 列表 。 


a. list(a, b, list(c, d), list(e, f)) 
b. list(list(list(list(list(list(a)))))) 


D 如 果 像 对 列表 取 子 集 一 样 对 tibble 取 子 集 ， 那 么 会 发 生 什么 情况 ? 列表 和 tibble 之 间 的 
关键 区 别 是 什么 ? 


15.6 特性 


任何 向 量 都 可 以 通过 其 特性 来 附加 任意 元 数据 。 你 可 以 将 特性 看 作 可 以 附加 在 任何 对 象 
上 的 一 个 向 量 命名 列表 。 可 以 使 用 attr() 函数 来 读 取 和 设置 单个 特性 值 ， 也 可 以 使 用 
attributes() 国 数 同时 查看 所 有 特性 值 : 


x <- 1:10 

attr(x, "greeting") 

#> NULL 

attr(x, "greeting") <- "Hi!" 
attr(x, "farewell") <- "Bye!" 
attributes(x) 

#> Sgreeting 

#> F4] "Hür" 

#> 

#> Sfarewell 

#> [1] "Bye!" 


3 种 特别 重要 的 特性 可 以 用 来 实现 R 中 的 基础 功能 。 

。 名 称 : 用 于 命名 向 量 元 素 。 

。 维度 : 使 得 向 量 可 以 像 矩 阵 或 数组 那样 操作 。 
类 : 用 于 实现 面向 对 象 的 S3 系统 。 


我 们 已 经 在 前 面 介绍 过 名 称 了 ， 而 且 不 准备 介绍 维度 ， 因 为 本 书 不 会 使 用 矩阵 。 但 我 们 还 
是 需要 描述 一 下 类 ， 因 为 它 可 以 控制 泛 型 函数 的 运行 方式 。 泛 型 函数 是 R 中 实现 面向 对 象 
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编程 的 关键 ， 因 为 它 允 许 国 数 根据 不 同类 型 的 输入 而 进行 不 同 的 操作 。 有 关 面 向 对 象 编程 


的 详细 讨论 超出 了 本 书 范围 ， 但 你 可 以 在 Advanced R 中 找到 更 多 相关 内 容 。 





以 下 就 是 一 个 典型 的 泛 型 函数 : 


as.Date 

#> function (Xx, ...) 

#> UseMethod("as.Date") 

#> <bytecode: 0x7fa61e0590d8> 
#> <environment: namespace:base> 


对 UseMethod 的 调用 意味 着 这 是 一 个 泛 型 函数 ， 而 且 它 会 根据 第 一 个 参数 的 类 调用 特定 方 
法 ， 即 一 个 函数 。( 所 有 方法 都 是 函数 ， 但 函数 不 一 定 都 是 方法 。) 你 可 以 使 用 methods() 


函数 列举 出 一 个 泛 型 函数 的 所 有 方法 : 


methods("as.Date") 

#> [1] as.Date.character as.Date.date as.Date.dates 
#> [4] as.Date.default as.Date.factor as.Date.numeric 
#> [7] as.Date.POSIXct as.Date.POSIXlt 

#> see '?methods' for accessing help and source code 


例如 ， 如 果 x 是 一 个 字符 向 量 ， 那 么 as.Date() 就 会 调用 as.Date.character(); 如 果 x 是 一 个 


因子 ， 那 么 就 会 调用 as.Date.factor()。 
你 可 以 使 用 gets3method() 函数 查看 方法 的 特殊 实现 形式 : 


getS3method("as.Date", "default") 
#> function (x; ...) 


办 > { 

#> if (inherits(x, "Date")) 

#> return(x) 

办 > if (is.logical(x) && all(is.na(x))) 

#> return(structure(as.numeric(x), class = "Date")) 

#> stop( 

#> gettextf("do not know how to convert '%s' to class %s 
#> deparse(substitute(x)), dQuote("Date")), domain = NA) 
#> } 


办 > <bytecode: 0x7fa61dd47e78> 
#> <environment: namespace:base> 
getS3method("as.Date", "numeric") 


#> function (x, origin; ...) 

#> { 

#> if (missing(origin)) 

#> stop("'origin' must be supplied") 
#> as.Date(origin, ...) + x 

#> } 


办 > <bytecode: 0x7fa61dd463b8> 
#> <environment: namespace:base> 


最 重要 的 S3 泛 型 函数 是 print(): 当 在 控制 台中 输入 对 象 名 称 时 ，print() 可 以 决定 如 何 输 


出 这 个 对 象 。 其 他 重要 的 泛 型 函数 是 取 子 集 函 数 [、[[ 和 $. 





15.7 ”扩展 回 量 


原子 向 量 和 列表 是 最 基础 的 向 量 ， 使 用 它们 可 以 构建 出 另外 一 些 重要 的 向 量 类 型 ， 比 如 因 
子 和 日 期 。 我 们 称 构建 出 的 这 些 向 量 为 扩展 向 量 ， 因 为 它们 具有 附加 特性 ， 其 中 包括 类 。 
因为 扩展 向 量 中 带 有 类 ， 所 以 它们 的 行为 就 与 基础 的 原子 向 量 不 同 。 本 书 会 使 用 4 种 重要 
的 扩展 向 量 。 

。 因子 

。 日 期 

。 日 期 时 间 

。 tibble 














15.7.1 因子 


因子 是 设计 用 来 表示 分 类 数据 的 ， 只 能 在 固定 集合 中 取 值 。 因 子 是 在 整 型 向 量 的 基础 上 构 
EN, RI TERE: 


x <- factor(c("ab", "cd", "ab"), levels = c("ab", "cd", "ef")) 
typeof (x) 

#> [1] "integer" 

attributes(x) 

#> Slevels 

Ws fi] ab” "ed" Tef" 

#> 

#> $class 

#>-[1]. "factor" 


15.7.2 日 期 和 日 期 时 间 
R 中 的 日 期 是 一 种 数值 型 向 量 ， 表 示 从 1970 年 1 月 1 日 开始 的 天 数 : 


x <- as.Date("1971-01-01") 
unclass(x) 
#> [1] 365 














typeof (x) 

#> [1] "double" 
attributes(x) 
#> $class 

#> [1] "Date" 


日 期 时 间 是 带 有 PoSIXct 类 的 数值 型 向 量 ， 表 示 从 1970 年 1 月 1 日 开始 的 秒 数 (POSIXct 
表示 “可 移植 操作 系统 接口 ”日 历时 间 ，portable operating system interface, calendar time, ) : 


x <- lubridate::ymd_hm("1970-01-01 01:00") 
unclass(x) 

#> [1] 3600 

#> attr(,"tzone") 

Ws [í] "UTE" 

typeof (x) 
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#> [1] "double" 
attributes(x) 

#> Stzone 

#> [1] "UTC" 

#> 

#> $class 

#> [1] "POSIXct" "POSIXt" 


tzone 特性 是 可 选 的 。 它 控制 的 是 时 间 的 输出 方式 ， 不 是 时 间 的 值 : 


attr(x, "tzone") <- "US/Pacific" 
x 
#> [1] "1969-12-31 17:00:00 PST" 


attr(x, "tzone") <- "US/Eastern" 
x 
#> [1] "1969-12-31 20:00:00 EST" 


另 一 种 日 期 时 间 类 型 称 为 PoSTXLt， 它 是 基于 命名 列表 构建 的 : 


y <- as.POSIXLt(x) 

typeof(y) 

# [1] "list" 

attributes(y) 

#> Snames 

#> [i] "sec" "min" "hour" "mday " mon 
#> [7] "wday" “"yday”  "isdst" "zone" "gmtoff" 
#> 

#> $class 

#> [1] "POSIXlt" "POSIXt" 

#> 

办 > Stzone 

#> [1] "US/Eastern" "EST" “EDI 


POSIXLt 很 少 在 tidyverse 中 使 用 ， 但 R 基础 包 中 确实 有 这 种 类 型 ， 当 需要 从 日 期 中 提取 
特定 成 分 (比如 年 或 月 ) 时 ， 就 可 以 使 用 这 种 类 型 。 因 为 lubridate 已 经 提供 了 辅助 函数 
来 完成 这 种 操作 ， 所 以 我 们 不 需要 它们 。PosSIXct 处 理 起 来 总 是 更 容易 ， 因 此 如 果 遇 到 了 
POSIXLt， 那 么 你 就 应 该 使 用 Lubridate::as_date_time() 将 其 转换 为 常用 的 日 期 时 间 。 


" " 


"year" 








15.7.3 tibble 
tibble 是 扩展 的 列表 ， 有 3 个 类 : tbl_df. tbl 和 data.frane。 它 的 特性 有 2 个 : ( 列 ) 


names 和 row.names。 


tb <- tibble::tibble(x = 1:5, y = 5:1) 

typeof (tb) 

#> [3] "list" 

attributes(tb) 

办 > Snames 

s [i] "x" "y" 

#> 

#> $class 

#> [1] "tbl_df" “EDL” "data. frame" 
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#> 
#> Srow.names 
# [1] 4 p S 2 5 


传统 data frames 共有 非常 相似 的 结构 : 


df <- data.frame(x = 1:5, y = 5:1) 
typeof (df) 

Ws [i] "list" 
attributes(df) 

#> $names 

Ws PI] ye 

#> 

#> Srow.names 

#> [1] 1 2 3 4 5 
#> 

#> $class 

#> [1] "data. frame" 


以 上 二 者 的 主要 区 别 就 是 类 。tibble 的 类 包括 了 data.frame， 这 说 明 tibble 自动 继承 了 普通 
数据 框 的 行为 。 

tibble (或 数据 框 ) 与 列表 之 间 的 主要 区 别 就 是 tibble (或 数据 框 ) 中 的 所 有 元 素 都 必须 是 长 
度 相同 的 向 量 。 支 持 tibble 的 所 有 函数 都 强制 要 求 这 个 条 件 。 








15.7.4 ”练习 


(1) hms: :hms(3600) 会 返回 什么 ?返回 值 如 何 输出 ? 这 种 扩展 向 量 是 基于 哪 种 基本 类 型 构造 
的 ? 使 用 了 哪 种 特性 ? 


(2) 试 着 使 用 长 度 不 同 的 列 创建 一 个 tibble， 会 发 生 什 么 情况 ? 
(3) 基于 前 面 的 定义 ， 列 表 能 否 作为 tibble 中 的 列 呢 ? 





218 | 第 15 章 


第 16 章 


使 用 purrr 实 现 迭代 





16.1 简介 


第 14 章 中 讨论 了 通过 创建 函数 而 不 是 复制 粘贴 的 方式 来 减少 重复 代码 的 重要 性 。 减 少 重 
复 代 码 主 要 有 3 个 好 处 。 


。 更 容易 看 清 代码 的 意图 ， 因 为 吸引 我 们 目光 的 是 那些 不 同 的 部 分 ， 而 不 是 那些 保持 不 变 
的 部 分 。 

。 更 容易 对 需求 变化 作出 反应 。 当 要 修改 代码 时 ， 只 需要 在 一 处 进行 修改 即 可 ， 无 须 对 所 
有 复制 粘贴 的 代码 都 进行 修改 。 

。 更 容易 减少 程序 bug， 因 为 每 行 代码 都 被 多 次 使 用 。 


国 数 是 减少 重复 代码 的 一 种 工具 ， 其 减少 重复 代码 的 方法 是 ， 先 识别 出 代码 中 的 重复 模 
式 ， 然 后 将 其 提取 出 来 ， 成 为 更 容易 修改 和 重用 的 独立 部 分 。 减 少 重复 代码 的 另 一 种 工具 
是 迭代 ， 它 的 作用 在 于 可 以 对 多 个 输入 执行 同一 种 处 理 ， 比 如 对 多 个 列 或 多 个 数据 集 进行 
同样 的 操作 。 本 章 将 介绍 两 种 重要 的 迭 代 方 式 : 命令 式 编程 和 函数 式 编程 。 对 于 命令 式 编 
程 ， 我 们 将 介绍 for 循环 和 while 循环 ， 它 们 是 很 好 的 学 习 起 点 ， 因 为 这 种 迭代 过 程 非常 
简洁 明了 。 但 是 ，for 循环 比较 繁琐 ， 而 且 每 个 for 循环 中 都 要 重复 使 用 一 些 记 录 和 跟踪 
的 代码 。 函 数 式 编程 则 可 以 将 这 些 重复 代码 提取 出 来 ， 使 每 个 普通 的 for 循环 都 可 以 通过 
函数 来 完成 。 一 旦 掌握 函数 式 编程 的 使 用 方法 ， 那 么 你 就 可 以 通过 更 少 的 代码 和 更 容易 的 
方式 解决 很 多 常见 的 迭代 问题 ， 出 错 的 概率 也 会 更 小 。 


准备 工作 


如 果 已 经 掌握 了 R 基础 包 中 的 for 循环 ， 那 么 你 就 可 以 继续 学 习 由 purr 包 提 供 的 一 些 更 
加 强大 的 编程 工具 。purrr 包 是 tidyverse 的 核心 R 包 之 一 。 


library(tidyverse) 
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16.2 for 循环 


假设 我 们 有 以 下 这 样 一 个 简单 的 tibble: 


df <- tibble( 

rnorm(10), 
rnorm(10), 
rnorm(10), 
rnorm(10) 





e n Com 


) 
我 们 想 要 计算 出 每 列 的 中 位 数 。 你 完全 可 以 使 用 复制 粘贴 来 完成 这 个 任务 : 


median(df$a) 
#> [1] -0.246 
median(dfsb) 
#> [1] -0.287 
median(df$c) 
#> [1] -0.0567 
median(df$d) 
#> [1] 0.144 


但 这 样 做 就 违反 了 我 们 的 经 验 法 则 : 永远 不 要 复制 粘贴 超过 2 次 。 相 反 ， 我 们 应 该 使 用 
for 循环 : 


output <- vector("double", ncol(df)) #1. 输出 
for (i in seq_along(df)) { # 2. 序列 

output[[i]] <- median(df[[i]]) # 3. 循环 体 
J 














output 
#> [1] -0.2458 -0.2873 -0.0567 0.1443 


每 个 for 循环 都 包括 3 个 部 分 。 
输出 : output <- vector("double", length(x)) 


在 开始 循环 前 ， 你 必须 为 输出 结果 分 配 足够 的 空间 。 这 对 循环 效率 非常 重要 ， 如 有 果 在 每 
次 运 代 中 都 使 用 c() 来 保存 循环 的 结果 ， 那 么 for 循环 的 速度 就 会 特别 慢 。 


创建 给 定 长 度 的 空 向 量 的 一 般 方法 是 使 用 vector() 函数 ,该 函数 有 两 个 参数 : 向 量 类 
型 ("logical". "integer", "double". "character" 等 ) 和 向 量 的 长 度 。 




















序列 : i in seq_along(df) 
这 部 分 确定 了 使 用 哪些 值 来 进行 循环 : 每 一 轮 for 循环 都 会 赋予 i 一 个 来 自 于 seq_ 
along(df) 的 不 同 的 值 。 我 们 可 以 将 宇 看 作 一 个 代词 ， 和 站 类 似 。 


你 可 能 还 不 清楚 seq_along() 函数 的 作用 ， 它 与 我 们 熟悉 的 1:Length(L) 的 作用 基本 相 
同 ， 但 最 重要 的 区 别 是 更 加 安全 。 如 果 我 们 有 一 个 长 度 为 0 的 向 量 ， 那 么 seq_along() 
会 进行 正确 的 处 理 : 

y <- vector("double", 0) 


seq_along(y) 
#> integer(0) 
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1:length(y) 
#> [1] 1 0 
你 当然 不 会 故意 创建 长 度 为 0 的 向 量 ， 但 很 可 能 会 意外 生成 一 个 。 如 果 使 用 1:Length(x) 
而 不 是 seq_along(x)， 那 么 就 可 能 收 到 一 个 令 人 迷惑 的 错误 消息 。 
循环 体 : output[[i]] <- median(df[[i]]) 
这 部 分 就 是 执行 具体 操作 的 代码 。 它 们 会 重复 运行 ， 每 次 运行 都 使 用 一 个 不 同 的 i 
值 。 第 一 次 迭代 运行 的 是 output[[1]] <- median(df[[1]])， 第 二 次 友 代 运行 的 是 
output[[2]] <- median[[2]]， 以 此 类 推 。 
关于 for 循环 ， 能 讲 的 就 这 么 多 了 ! 现在 我 们 应 该 使 用 以 下 的 习题 创建 一 些 基础 《和 不 那 
么 基础 ) 的 for 循环 来 练习 一 下 ， 然 后 就 可 以 通过 for 循环 的 各 种 变 体 来 解决 实际 工作 中 
遇 到 的 那些 问题 了 。 


练习 
(1) 使 用 for 循环 完成 以 下 操作 。 
a. 计算 出 mtcars 数据 集中 每 列 的 均值 。 
b. 确定 nycflights13::flights 数据 集中 每 列 的 类 型 。 
c. 计算 出 iris 数据 集中 每 列 唯一 值 的 数量 。 
d. SAMEM u=-—10, 0, 10 和 100 的 正 态 分 布 生 成 10 个 随机 数 。 
在 编写 代码 前 ， 仔 细 思 考 各 个 for 循环 的 输出 、 序 列 和 循环 体 。 
(2?) 使 用 支持 向 量 运算 的 现 有 函数 替换 以 下 示例 中 的 for 循环 。 
out <- "" 
for (x in letters) { 


out <- stringr::str_c(out, x) 


} 

















x <- sample(100) 
sd <- 0 
for (i in seq_along(x)) { 
sd <- sd + (x[i] - mean(x)) ^ 2 
} 
sd <- sqrt(sd / (length(x) - 1)) 


x <- runif(100) 
out <- vector("numeric", length(x)) 
out[1] <- x[1] 
for (i in 2:length(x)) { 
out[i] <- out[i - 1] + x[i] 


} 
(3) 使 用 函数 和 for 循环 完成 以 下 任务 。 
a. 使 用 for 循环 和 prints() 打印 出 儿歌 “Alice the Camel” 的 歌词 。 
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b. 将 儿歌 “Ten in the Bed” 转 换 成 一 个 函数 ， 将 其 扩展 为 任意 数量 的 小 朋友 和 任意 种 
类 的 寝具 。 
c， 将 歌曲 “99 Bottles of Beer on the Wall” 转 换 成 一 个 函数 ， 将 其 扩展 为 任意 数量 、 任 
意 容 器 、 任 意 流 体 和 任意 表面 。 
(4) 我 们 经 常见 到 并 不 预先 分 配 好 输出 空间 ， 而 是 在 每 次 循环 中 增加 向 量 长 度 的 for 循环 ， 
比如 : 
output <- vector("integer", 0) 
for (i in seq_along(x)) { 
output <- c(output, lengths(x[[i]])) 
} 


output 


这 种 方式 是 如 何 影响 性 能 的 ?设计 一 个 实验 说 明 一 下 。 


16.3 for 循环 的 变 体 


如 果 已 经 掌握 了 基础 的 for 循环 ， 那 么 你 就 应 该 再 熟悉 一 下 它 的 几 种 变 体 。 不 管 进 行 何 种 
迄 代 ， 这 些 变 体 都 非常 重要 。 因 此 ， 即 使 在 下 一 方 中 黎 握 了 函数 式 编程 技术 ， 也 不 要 忘 了 
如 何 使 用 这 些 变 体 。 


在 基础 for 循环 之 上 有 4 种 变 体 。 


修改 现 有 对 象 ， 而 不 是 创建 新 对 象 。 

使 用 名 称 或 值 进行 迭代 ， 而 不 是 使 用 索引 。 
。 处 理 未 知 长 度 的 输出 。 

处 理 未 知 长 度 的 序列 。 


16.3.1 修改 现 有 对 象 


有 时 我 们 会 希望 使 用 for 循环 来 修改 现 有 的 对 象 。 例 如 ， 回 想 一 下 第 14 章 中 的 一 个 问题 
我 们 希望 对 数据 框 中 的 每 列 进行 调整 : 


df <- tibble( 
a= rnorm(10)， 
b = rnorm(10) ， 
c = rnorm(10), 
d = rnorm(10) 
) 
rescale01 <- function(x) í 
rng <- range(x, na.rm = TRUE) 
(x - rng[1]) / (rng[2] - rng[1]) 




















r; 























df$a <- rescale01(df$a) 
dfsb <- rescale01(df$b) 
df$c <- rescale01(df$c) 
df$d <- rescale01(df$d) 


为 了 使 用 for 循环 解决 这 个 问题 ， 我 们 还 是 先 思考 一 下 for 循环 的 3 个 部 分 。 
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输出 : 
我 们 已 经 有 了 输出 ， 和 输入 是 相同 的 ! 








序列 : 
我 们 可 以 将 数据 框 看 作 数据 列 的 列表 ， 因 此 可 以 使 用 seq_along(df) 在 每 列 中 进行 运 代 。 
函数 体 : 


可 以 使 用 rescale01() 国 数 。 
因此 可 以 写 出 以 下 代码 : 


for (i in seq_along(df)) { 
df[[i]] <- rescale01(df[[i]]) 





一 般 来 说 ， 你 可 以 使 用 类 似 的 循环 来 修改 列表 或 数据 框 ， 要 记 住 使 用 [[ ， 而 不 是 [。 你 或 
许 已 经 发 现 了 ， 我 们 在 所 有 for 循环 中 使 用 的 都 是 [[。 我 们 认为 其 至 在 原子 向 量 中 最 好 也 
使 用 [[， 因 为 它 可 以 明确 表示 我 们 要 处 理 的 是 单个 元 素 。 


16.3.2 ”循环 模式 
对 向 量 进行 循环 的 基本 方式 有 3 种 ， 至 此 我 们 只 介绍 了 最 常用 的 一 种 方式 : 通过 for (i 
in seq_along(xs)) 使 用 数值 索引 进行 循环 ， 并 使 用 x[[i]] 提取 出 相应 的 值 。 另 外 两 种 循 
环 方式 如 下 。 
使 用 元 素 进 行 循环 : for (x in xs)。 如 果 只 关心 副作用 ， 比 如 绘图 或 保存 文件 ， 那 么 
这 种 方式 是 最 适合 的 ， 因 为 有 效率 地 保存 输出 结果 是 非常 困难 的 。 
使 用 名 称 进 行 循环 : for (nm in names(xs))。 这 种 方式 会 给 出 一 个 名 称 ， 你 可 以 使 用 这 
个 名 称 和 x[[nm]] 来 访问 元 素 的 值 。 如 果 想 要 在 图 表 标 题 或 文件 名 中 使 用 元 素 名 称 ， 那 
么 你 就 应 该 使 用 这 种 方式 。 
如 果 想 要 创建 命名 的 输出 向 量 ， 请 一 定 按照 如 下 方式 进行 命名 : 


results <- vector("list", length(x)) 
names(results) <- names(x) 


使 用 数值 索引 进行 循环 是 最 常用 的 方式 ， 因 为 给 定位 置 后， 就 可 以 提取 出 元 素 的 名 称 和 值 : 


for (i in seq_along(x)) { 
name <- names(x)[[i]] 
value <- x[[i]] 


} 


16.3.3 未知 的 输出 长 度 


有 时 你 可 能 不 知道 输出 的 长 度 。 例 如 ， 假 设 你 想 模拟 长 度 随机 的 一 些 随机 向 量 。 你 或 许 想 
要 通过 逐渐 增加 向 量 长 度 的 方式 来 解决 这 个 问题 : 


means <- c(0, 1, 2) 










































































output <- double() 
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for (i in seq_along(means)) í 
n <- sample(100, 1) 
output <- c(output, rnorm(n, means[[i]])) 


str(output) 
#> num [1:202] 0.912 0.205 2.584 -0.789 0.588 ... 


但 这 并 不 是 一 种 非常 高 效 的 方式 ， 因 为 R EEEE vrh e hl EAEE R Jr 4 Cha , 
从 技术 角度 来 看 ， 你 执行 了 一 种 “平方 ”(O(n)) 操作 ， 这 意味 着 ， 如 果 元 素数 量 增加 到 
原来 的 3 倍 ， 那 么 循环 时 间 就 要 增加 到 原来 的 9 f, 


更 好 的 解决 方式 是 将 结果 保存 在 一 个 列表 中 ， 循 环 结束 后 再 组 合成 一 个 向 量 : 


out <- vector("list", length(means)) 
for (i in seq_along(means)) í 
n <- sample(100, 1) 
out[[i]] <- rnorm(n, means[[i]]) 
) 
str(out) 
We List of 3 
#> S nüm [1:83] 0.367 1.13 -0.941 0:218 1.41S ss; 
#> $ : num [1:21] -0.485 -0.425 2.937 1.688 1.324 ... 
> S a pim [1:40] 2.34 1:59 2:93 384 1.3 era 
str(unlist(out)) 
#> num [1:144] 0.367 1.13 -0.941 0.218 1.415 ... 


这 里 我 们 使 用 了 unlist() 函数 将 一 个 向 量 列表 转换 为 单个 向 量 。 更 严格 的 一 种 转换 方式 是 
使 用 purrr::flatten_dbl() 国 数 ， 如 果 输 入 不 是 双 精 度 型 列表 ， 那 么 它 就 会 抛 出 一 个 错误 。 
其 他 情况 下 也 可 以 使 用 这 种 编码 模式 。 

。 你 或 许 会 生成 一 个 很 长 的 字符 串 。 不 要 使 用 paste() 国 数 将 每 次 进 代 的 结果 与 上 一 
次 连接 起 来 ， 而 应 该 将 每 次 迭代 结果 保存 在 字符 问 量 中 ， 然 后 再 使 用 paste(output， 
collapse = "") 将 这 个 字符 向 量 组 合成 一 个 字符 串 。 

。 你 或 许 会 生成 一 个 很 大 的 数据 框 。 不 要 在 每 次 迭代 中 依次 使 用 rbind() 函数 ， 而 应 该 将 
每 次 迭代 结果 保存 在 列表 中 ， 再 使 用 dplyr::bind_rows(output) 将 结果 组 合成 数据 框 。 


注意 这 种 模式 。 只 要 遇 到 类 似 情况 ， 就 应 该 使 用 一 个 更 复杂 的 对 象 来 保存 每 次 运 代 的 结 
果 ， 最 后 再 一 次 性 组 合 起 来 。 


16.3.4 未知 的 序列 长 度 

有 时 你 其 至 不 知道 输入 序列 的 长 度 。 这 种 情况 在 模拟 时 很 常见 。 例 如 ， 在 找 硬 币 时 ， 你 想 
要 循环 到 连续 3 次 掷 出 正面 向 上 。 这 种 迭代 不 能 使 用 for 循环 来 实现 ， 而 应 该 使 用 while 
循环 。white 循环 比 for 循环 更 简单 ， 因 为 前 者 只 需要 2 个 部 分 : 条 件 和 循环 体 。 


while (condition) í 


# 循环 体 
} 



























































while 循环 也 比 for 循环 更 常用 ， 因 为 任何 for 循环 都 可 以 使 用 while 循环 重新 实现 ， 但 不 
是 所 有 while 循环 都 能 使 用 for 循环 重新 实现 : 
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for (i in seq_along(x)) { 
# 循环 体 
} 


# 等 价 于 

i <- 1 

while (i <= length(x)) { 
# 循环 体 
l< £ + 14 


) 
在 以 下 示例 中 ， 我 们 使 用 while 循环 找 出 了 连续 3 次 掷 出 正面 向 上 的 硬币 所 需 的 投掷 次 数 : 


flip <- function() sample(c("T", "H"), 1) 





flips <- 0 
nheads <- 0 


while (nheads < 3) { 
if (ftip() == "H") { 
nheads <- nheads + 1 
} else { 
nheads <- 0 


} 
flips <- flips + 1 
} 
flips 
#> [1] 3 
我 们 只 简单 介绍 了 一 下 while 循环 ， 因 为 几乎 用 不 到 。white 循环 最 常用 于 模拟 ， 可 本 书 
中 并 不 包括 这 项 内 容 。 但 是 ， 知 道 它 的 存在 还 是 很 重要 的 ， 当 遇 到 事先 不 知道 欠 代 次 数 的 
问题 时 ， 你 就 可 以 使 用 while 循环 来 解决 。 





16.3.5 J 


(1) 假 设 一 个 目录 中 全 是 你 想 要 读 入 的 CSV 文件 。 你 已 经 将 这 些 文件 的 路 径 保存 在 向 量 
files <- dir("data/", pattern = "\\.csv$", full.names = TRUE) 中 ， 现 在 想 要 使 用 
read_csv() 函数 来 读 取 每 个 文件 。 编 写 一 个 for 循环 将 这 些 文件 加 载 到 一 个 数据 框 中 。 


(2) 如 果 使 用 了 for (nm in names(x))， 但 x 中 并 没有 名 称 ， 那 么 会 发 生 什 么 情况 ? 如 果 x 中 
只 有 部 分 元 素 有 名 称 ， 那 么 会 发 生 什么 情况 ?如 果 名 称 不 是 唯一 的 ， 又 会 发 生 什么 情况 ? 


(3) 编 写 一 个 函数 ， 使 其 输出 一 个 数据 框 中 所 有 数值 列 的 均值 及 名 称 。 例 如 ，show_ 
mean(iris) 会 输出 以 下 结果 。 


show_mean(iris) 

#> Sepal.Length: 5.84 
#> Sepal.Width: 3.06 
#> Petal.Length: 3.76 
#> Petal.Width: 1.20 


(附加 题 : 虽然 变量 名 称 的 长 度 不 同 ， 但 我 们 使 用 了 哪个 函数 确保 数值 可 以 整齐 排列 ? ) 
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(4) 以 下 代码 的 作用 是 什么 ? 它 是 如 何 运 行 的 ? 


trans <- list( 
disp = function(x) x * 0.0163871, 
am = function(x) { 
factor(x, labels = c("auto", "manual")) 
} 
) 
for (var in names(trans)) { 
mtcars[[var]] <- trans[[var]](mtcars[[var]]) 


} 


16.4 “for 循环 与 函数 式 编 程 


for 循环 在 R 中 不 像 在 其 他 语言 中 那么 重要 ， 因 为 R 是 一 门 函 数 式 编程 语言 。 这 意味 着 可 
以 先 将 for 循环 包装 在 函数 中 ， 然 后 再 调用 这 个 函数 ， 而 不 是 直接 使 用 for 循环 。 


为 了 说 明 函 数 式 编程 的 重要 性 ，( 再 次 ) 思考 一 下 这 个 简单 的 数据 框 : 


df <- tibble( 

rnorm(10) ， 
rnorm(10) ， 
rnorm(10) ， 
rnorm(10) 











a0” TU 


) 
假设 想 要 计算 每 列 的 均值 。 你 可 以 使 用 for 循环 来 完成 这 个 任务 : 


output <- vector("double", length(df)) 
for (i in seq_along(df)) { 
output[[i]] <- mean(df[[i]]) 


output 
#> [1] 0.2026 -0.2068 0.1275 -0.0917 


然后 你 意识 到 会 非常 频繁 地 计算 每 列 均值 ， 因 此 将 这 段 代 码 提 取出 来 ， 转 换 成 一 个 函数 : 


col_mean <- function(df) í 
output <- vector("double", length(df)) 
for (i in seq_along(df)) { 
output[i] <- mean(df[[i]]) 
} 
output 


} 


接着 你 又 觉得 应 该 计算 出 每 列 的 中 位 数 和 标准 差 ， 因 此 复制 粘贴 了 函数 col_mean()， 并 使 
用 median() 和 sd() AAGE A J mean() 函数 : 


col_median <- function(df) { 
output <- vector("double", length(df)) 
for (i in seq_along(df)) { 
output[i] <- median(df[[i]]) 
} 


output 
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col_sd <- function(df) { 
output <- vector("double", length(df)) 
for (i in seq_along(df)) { 
output[i] <- sd(df[[i]]) 


output 


} 


啊 哦 ! 你 又 复制 粘贴 了 2 次 ， 因 此 应 该 思考 一 下 如 何 扩展 这 段 代 码 。 广 意 ， 这 段 代码 中 大 部 
分 是 一 个 for 循环 模板 ， 而 且 很 难看 出 不 同 函数 (mean()、median() 和 sd()) 之 间 的 区 别 。 


如 果 看 见 以 下 函数 ， 你 应 该 如 何 做 ? 


f1 <- function(x) abs(x - mean(x)) ^1 
f2 <- function(x) abs(x - mean(x)) ^ 2 
f3 <- function(x) abs(x - mean(x)) ^ 3 


希望 你 能 够 发 现 这 段 代码 中 有 很 多 重复 ， 并 可 以 使 用 一 个 附加 参数 来 提取 重复 代码 : 


f <- function(x, i) abs(x - mean(x)) ^i 


你 已 经 减少 了 出 错 的 概率 (因为 现在 的 代码 只 是 原来 的 1/3)， 而 且 这 个 函数 更 容易 推广 到 
新 场景 。 


通过 添加 支持 函数 应 用 到 每 列 的 一 个 参数 ， 我 们 可 以 使 用 同一 个 函数 完成 与 coL_mean()、 
col_median() 和 col_sd() 函数 相同 的 操作 : 
col_summary <- function(df, fun) í 
out <- vector("double", length(df)) 
for (i in seq_along(df)) { 
out[i] <- fun(df[[i]]) 
} 


out 


} 

col_summary(df, median) 

#> [1] 0.237 -0.218 0.254 -0.133 
col_summary(df, mean) 

#> [1] 0.2026 -0.2068 0.1275 -0.0917 


将 函数 作为 参数 传 入 另 一 个 函数 的 这 种 做 法 是 一 种 非常 强大 的 功能 ， 它 是 促使 R 成 为 函数 
式 编 程 语言 的 因素 之 一 。 你 需要 花 些 时 间 才 能 真正 理解 这 种 思想 ， 但 这 绝对 是 值得 的 。 在 
本 章 剩余 部 分 ， 我 们 将 学 习 和 使 用 purr 包 ， 它 提供 的 了 国 数 可 以 替代 很 多 常见 的 for 循环 
应 用 。R 基础 包 中 的 应 用 函数 族 (apply(). lapply(). tapply() 等 ) 也 可 以 完成 类 似 的 任 
F, 但 purr 包 中 的 函数 更 一 致 ， 也 更 易于 学 习 。 
使 用 purrr 函数 代替 for 循环 的 目的 是 将 常见 的 列表 处 理 问 题 分 解 为 独立 的 几 个 部 分 。 
对 于 列表 中 的 单个 元 素 ， 你 能 找到 解决 问题 的 方法 吗 ? 如 果 找 到 了 解决 方法 ， 那 么 你 就 
可 以 使 用 purrr 将 这 种 方法 扩展 到 列表 中 的 所 有 元 素 。 
如 果 你 面临 的 是 一 个 非常 复杂 的 问题 ， 那 么 如 何 将 其 分 解 为 儿 个 可 行 的 子 问题 ， 然 后 循 
序 渐进 地 解决 ， 直 至 完成 最 终 的 解决 方案 ?使 用 purr， 你 可 以 解决 很 多 子 问题 ， 然 后 再 
通过 管道 操作 将 这 些 问题 的 结果 组 合 起 来 。 
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这 种 方法 可 以 让 你 更 轻松 地 解决 新 问题 ， 对 于 老 问 题 ， 你 也 可 以 在 重 温 代码 时 更 轻松 地 理 
解 当时 的 解决 方案 。 


练习 
(1) 阅读 apply() 函数 的 文档 。 在 第 二 种 情形 中 ， 它 会 扩展 出 哪 两 种 for 循环 ? 


(2) 修改 col_summary() 函数 ， 让 其 只 应 用 于 数值 型 的 列 。 你 可 以 使 用 is_numeric() 函数 返 
回 一 个 逻辑 向 量 ， 其 中 的 TRUE 值 就 对 应 每 个 数值 型 列 。 


16.5 “映射 函数 


先 对 癌 量 进行 循环 、 然 后 对 其 每 个 元 素 进 行 一 番 处 理 ， 最 后 保存 结果 。 这 种 模式 太 普 遍 
了 ， 因 此 purr 包 提 供 了 一 个 函数 族 来 蔡 你 完成 这 种 操作 。 每 种 类 型 的 输出 都 有 一 个 相应 
的 函数 : 

。 map() 用 于 输出 列表 ; 

° map_LgL() 用 于 输出 逻辑 型 癌 量 ， 

° map_int() 用 于 输出 整 型 向 量 ， 

° map_db1() 用 于 输出 双 精 度 型 向 量 ， 

。 map_chr() 用 于 输出 字符 型 向 量 。 


每 个 函数 都 使 用 一 个 向 量 作为 输入 ， 并 对 向 量 的 每 个 元 素 应 用 一 个 函数 ， 然 后 返回 和 输入 
向 量 同样 长 度 (同样 名 称 ) 的 一 个 新 向 量 。 向 量 的 类 型 由 映射 函数 的 后 绥 决 定 。 


一 旦 掌握 了 这 些 函 数 ， 你 就 会 发 现 可 以 在 解决 迭代 问题 时 节 省 大 量 时 间 。 但 你 无 须 因 为 使 
用 了 for 循环 ， 没 有 使 用 映射 函数 而 感到 内 次 。 映 射 函 数 是 一 种 高 度 抽象 ， 需 要 花费 很 长 
时 间 才 能 理解 其 工作 原理 。 重 要 的 事情 是 解决 工作 中 遇 到 的 问题 ， 而 不 是 写 出 最 简洁 优雅 
的 代码 (尽管 肯定 也 应 该 为 之 努力 ! ) 


可 能 有 些 人 会 告诉 你 不 要 使 用 for 循环 ， 因 为 它们 很 慢 。 这 些 人 完全 错 了 ! (至少 他 们 已 
经 赶不上 时 代 了 ， 因 为 for 循环 已 经 有 很 多 年 都 不 慢 了 。) 使 用 map() 函数 的 主要 优势 不 是 
速度 ， 而 是 简洁 : 它们 可 以 让 你 的 代码 更 易 编写 ， 也 更 易 读 。 


我 们 可 以 使 用 这 些 函 数 来 执行 与 最 后 一 个 for 循环 相同 的 操作 。 因 为 那些 摘要 国 数 返回 的 
是 双 精 度数 ， 所 以 我 们 需要 使 用 map_db1() 函数 : 


map_dbl(df, mean) 

办 > a b ë d 
#> 0.2026 -0.2068 0.1275 -0.0917 
map_dbl(df, median) 

#> a b C d 

#> 0.237 -0.218 0.254 -0.133 
map_dbl(df, sd) 

#> a b c d 

#> 0.796 0.759 1.164 1.062 


与 for 循环 相 比 ， 上 映射 国 数 的 重点 在 于 需要 执行 的 操作 (Bl mean(). median() #lsd()), 
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而 不 是 在 所 有 元 素 中 循环 所 需 的 跟踪 记录 以 及 保存 结果 。 如 果 使 用 管道 ， 这 一 点 就 会 表现 
得 更 加 明显 : 
df %>% map_dbl(mean) 
办 > a b C d 
办 > 0.2026 -0.2068 0.1275 -0.0917 
df %>% map_dbl(median) 
#> a b € d 
#> 0.237 -0.218 0.254 -0.133 
df %>% map_dbl(sd) 
#> a b € d 
#> 0.796 0.759 1.164 1.062 


map_*() 和 col_summary() 具有 以 下 几 点 区 别 。 


。 所 有 purr 国 数 都 是 用 C 实现 的 。 这 使 得 它们 的 速度 非常 快 ， 但 牺 和 性 了 一 些 可 读 性 。 
。 第 二 个 参数 (HB .f， 要 应 用 的 函数 ) 可 以 是 一 个 公式 、 一 个 字符 向 量 或 一 个 整 型 向 量 。 
下 一 节 将 介绍 这 些 快捷 方式 。 
。 map_*() 使 用 ... (参见 14.5.3 35) 向 .f 传递 一 些 附加 参数 ， 供 其 在 每 次 调用 时 使 用 : 
map_dbl(df, mean, trim = 0.5) 


办 > a b ë d 
#> 0.237 -0.218 0.254 -0.133 


。 映射 函数 还 可 以 保留 名 称 : 


Z <- list(x = 1:3; y = 4:5) 
map_int(z, length) 

#> x y 

#> 3 2 


16.5.1 快捷 方式 


对 于 参数 .f， 你 可 以 使 用 几 种 快捷 方式 来 减少 输入 量 。 假 设 你 想 对 某 个 数据 集中 的 每 个 分 
组 都 拟 合 一 个 线性 模型 。 以 下 这 个 简单 示例 将 mtcars 数据 集 拆 分 成 3 个 部 分 (按照 气缸 的 
值 分 类 ) ， 并 对 每 个 部 分 拟 合 一 个 线性 模型 : 

models <- mtcars %>% 


split(.$cyl) %>% 
map(function(df) lm(mpg ~ wt, data = df)) 


因为 R 中 创建 匿名 函数 的 语法 比较 系 琐 ， 所 以 purrr 提供 了 一 种 更 方便 的 快捷 方式 一 一 单 
侧 公式 : 
models <- mtcars %>% 
split(.$cyl) %>% 
map(~Lm(mpg ~ wt, data = .)) 
我 们 在 以 上 示例 中 使 用 了 . 作为 一 个 代词 : 它 表 示 当 前 列表 元 素 ( 与 for 循环 中 用 i 表示 
当前 索引 是 一 样 的 )。 


当 检查 多 个 模型 时 ， 有 时 你 会 需要 提取 出 像 R 这 样 的 摘要 统计 量 。 要 想 完 成 这 个 任务 ， 
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需要 先 运 行 summary() 函数 ， 然 后 提取 出 结果 中 的 r.squared。 我 们 可 以 使 用 匿名 函数 的 快 
捷 方 式 来 完成 这 个 操作 : 


models %>% 
map(summary) %>% 
map_dbl(~.$r.squared) 
#> 4 6 8 
#> 0.509 0.465 0.423 


因为 提取 命名 成 分 的 这 种 操作 非常 普遍 ， 所 以 purr 提供 了 一 种 更 为 简洁 的 快捷 方式 : 使 
用 字符 串 。 


models %>% 
map(summary) %>% 
map_dbl("r.squared") 

#> 4 6 8 

#> 0.509 0.465 0.423 


你 还 可 以 使 用 整数 按照 位 置 来 选取 元 素 : 


x <= llet(ltst(L, 2, 3); Usta; S; 6); let(?, B; 9)) 
x %>% map_dbl(2) 
#> [1] 2 58 


16.5.2 RÆHE 
如 果 非 常熟 悉 R 基础 包 中 的 应 用 函数 族 ， 那 么 你 会 发 现 它们 与 purrr 函数 具有 以 下 共同 点 。 


° lapply() 国 数 与 map 函数 的 功能 基本 相同 ， 差 别 在 于 map() 函数 与 purrr 包 中 的 其 他 国 
数 是 一 致 的 ， 而 且 可 以 对 .f 使 用 快捷 方式 。 

。 RR 基础 包 中 的 sapply() 函数 是 对 lapply() 的 包装 ， 可 以 自动 简化 输出 。 这 对 交互 工作 
是 有 用 的 ， 但 作为 函数 则 是 有 问题 的 ， 因 为 你 不 知道 会 得 到 什么 样 的 输出 : 


x$ es Utst( 
e(0.27;, 0.37; 0:57; 0,91; 0:20); 
c(0.90, 0.94, 0.66, 0.63, 0.06), 
(O21 0.48; 069, 0,38; 0.77) 
) 
x2 <- list( 
c(0:50, 0:72; 0:99, 0:38; 0.78); 
e(0,9%; 0.21; 0:65. 0:13, 0:27); 
(0.39, 0.01, 0.38, 0.87; 0.34) 
) 

















threshold <- function(x, cutoff = 0.8) x[x > cutoff] 
x1 %>% sapply(threshold) %>% str() 

#> List of 3 

#> Š : num 0.91 

#> Š : num [1:2] 0.9 0.94 

#> $ : num(0) 

x2 %>% sapply(threshold) %>% str() 

#> num [1:3] 0.99 0.93 0.87 





° vapply() 国 数 是 sapply() 的 一 种 安全 替代 方式 ,因为 前 者 可 以 提供 额外 的 参数 来 定义 类 型 。 
vapply() 的 唯一 缺点 是 输入 量 较 大 : vapply(df, is.numeric, logical(1)) 等 价 于 map_ 
lgl(df, is.numeric), vapply() JEF purrr 中 的 映射 国 数 的 一 点 是 ， 它 可 以 生成 矩阵 ， 而 
映射 函数 只 能 生成 向 量 。 

本 章 重 点 介绍 purr 函数 ， 因 为 它们 具有 更 加 一 致 的 名 称 和 参数 ， 还 有 好 用 的 快捷 方式 ， 

而 且 未 来 还 可 以 轻松 实现 并 行 计 算 ， 以 及 方便 美观 的 进度 条 。 

















16.5.3 ”练习 

(1) 编写 代码 以 使 用 一 种 映射 函数 完成 以 下 任务 。 
a， 计 算 mtcars 数据 集中 每 列 的 均值 。 
b. 确定 nycflights13::flights 数据 集中 每 列 的 类 型 。 
c. 计算 iris 数据 集中 每 列 唯一 值 的 数量 。 
d. 分 别 使 用 /= -10、0、10 和 100 的 正 态 分 布 生成 10 个 随机 数 。 

(2) 如 何 建 立 一 个 向 量 来 表明 数据 框 中 的 每 一 列 是 否 为 一 个 因子 ? 

(3) 如 果 在 非 列表 向 量 上 使 用 映射 函数 ， 那 么 会 发 生 什么 情况 ? map(1:5, runif) 的 作用 是 
什么 ? 为 什么 ? 

(4)map(-2:2, rnorm, n = 5) 的 作用 是 什么 ”为 什么 ? map_dbl(-2:2, rnorm, n = 5) 的 作 
用 又 是 什么 ? 为 什么 ? 

(5) E map(x, function(df) lm(mpg ~ wt, data = df)) 这 段 人 代码， 去 除 匿名 国 数 。 


16.6 ”对 操作 失败 的 处 理 


当 使 用 映射 函数 重复 多 种 操作 时 ， 某 次 操作 失败 的 概率 会 大 大 增加 。 当 这 种 情况 发 生 时 ， 
你 不 仅 会 收 到 一 条 错误 消息 ， 而 且 不 会 得 到 任何 结果 。 这 很 令 人 恼火 : 为 什么 一 次 失败 会 
使 得 我 们 无 法 得 到 所 有 其 他 成 功 操作 的 结果 ? 怎样 才能 保证 不 会 出 现 一 条 鱼 腥 了 一 锅 汤 的 
情况 ? 

本 节 将 介绍 如 何 使 用 国 数 safely() 来 处 理 这 种 情况 。safely() 是 一 个 修饰 函数 (副词 )， 
它 接受 一 个 函数 (动词)， 对 其 进行 修改 并 返回 修改 后 的 函数 。 这 样 一 来 ， 修 改 后 的 函数 
就 不 会 抛 出 错误 。 相 反 ， 它 总 是 会 返回 由 以 下 两 个 元 素 组 成 的 一 个 列表 。 










































































result 
原始 结果 。 如 果 出 现 错误 ， 那 么 它 就 是 NULL, 
error 


错误 对 象 。 如 果 操 作成 功 ， 那 么 它 就 是 NULL, 


(你 可 能 非常 熟悉 R 基础 包 中 的 try() 函数 ，safely() 函数 确实 和 它 很 相似 。 但 因为 safely() 
有 时 会 返回 原始 结果 ， 有 时 会 返回 错误 对 象 ， 所 以 处 理 起 来 更 困难 一 些 。) 


我 们 使 用 一 个 简单 的 Log() 函数 来 进行 说 明 : 
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safe_log <- safely(log) 
str(safe_log(10)) 

#> List of 2 

#> 5 result: num 2.3 
#> Š error : NULL 
str(safe_log("a")) 

#> Ë ist of 2 

#> $ result: NULL 

#> Š error :List of 2 


#> ..Š message: chr "non-numeric argument to mathematical ..." 
#> af call < language feo.) 
= wom Gtt. "class )= chr [1:3] "simpleError" "error" xx 


当 函 数 成 功 运行 时 ，result 元 素 中 包含 原始 结果 ，error 元 素 的 值 是 NWLL， 当 国 数 运行 失 
Mht, result 元 素 的 值 是 NULL，error 元 素 中 包含 错误 对 象 。 


safeLy() 也 可 以 与 map() 函数 共同 使 用 : 


X <- Ulist(t, 10; "a", 
y <- x %>% map(safely(log)) 


str(y) 

#= Litst 3 

#> S List of 2 

#> ..ŠS result: num 0 

#> „S error +: NULL 

Ws S alist of 2 

#> ..Š result: num 2.3 

#> ..Š error : NULL 

WE LSE of 2 

#> .. $ result: NULL 

#> sS error SLS Of 2 

#> .. ..Š message: chr "non-numeric argument to ..." 
#> .. ..S call : language .f(...) 

多 sa sat Ottr( "class" )=schr [1:3] "stmplëEËErFFor"” "error" xsi 


如 果 将 以 上 结果 转换 为 两 个 列表 ， 一 个 列表 包含 所 有 错误 对 象 ， 另 一 个 列表 包含 所 有 原始 
结果 ， 那 么 处 理 起 来 就 会 更 加 容易 。 可 以 使 用 purrr::transpose() 国 数 轻松 完成 这 个 任务 : 


y <- y %>% transpose() 
str(y) 

Ws Listof 2 

#> S result List of 3 
#> ..Š : num 0 

#> zS a num 2.3 

#> sas 10 NUEL 

#> S error List of 3 
#> aS NUDE 

#> sa P NULE 

#> aS eL tst of 2 


#> .. ..Š message: chr "non-numeric argument to ..." 
=o ao avo Call -> language ¿f (2 
H> a EEF "class")=chr [133] "simpleError" "error" ses 


你 可 以 自行 决定 如 何 处 理 错误 对 象 ， 但 一 般 来 说 ， 你 应 该 检查 一 下 y 中 错误 对 象 所 对 应 的 
x 值 ， 或 者 使 用 y 中 的 正常 结果 进行 一 些 处 理 : 
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is ok <- y$error %>% map_lgl(is_null) 
x[!is_ok] 

#> [[1]] 

#> [1] "a" 

y$result[is_ok] %>% flatten_dbl() 

#> [1] 0:0 2.3 


purrr 还 提供 了 另外 两 个 有 用 的 修饰 函数 。 
。 与 safely() 类 似 ，possibly() 函数 也 总 是 会 成 功 返 回 。 它 比 safely() 还 要 简单 一 些 ， 
因为 可 以 设 定 出 现 错误 时 返回 一 个 默认 值 : 


x <= list(t, 406. "a" 
x %>% map_dbl(possibly(log, NA_real_)) 
#> [1] 0.0 2.3 M 


° quietly() 函数 与 safely() 的 作用 基本 相同 ， 但 前 者 的 结果 中 不 包含 错误 对 象 ， 而 是 包 
含 输出 、 消 息 和 警告 : 


x <= tust(1; s1) 
x %>% map(quietly(log)) %>% str() 








#> List of 2 

#> S aLtst of 4 

#> ..ŠS result : num 0 
#> ceS output ochr 
#> ..Š warnings: chr(0) 
#> ..Š messages: chr(0) 
#> 5 sliat of 2 

#> ..Š result : num NaN 
#> siS output + eh tt 
#> ..Š warnings: chr "NaNs produced" 
#> ..Š messages: chr (0) 


16.7 多 参数 映射 


迄今 为 止 ， 我们 的 映射 函数 都 是 对 单个 输入 进行 映射 。 但 我 们 经 常会 有 多 个 相关 的 输入 需 
要 同步 迭代 ， 这 就 是 map2() 和 pmap() 函数 的 用 武之 地 。 例 如 ， 假设 你 想 模拟 几 个 均值 不 
同 的 随机 正 态 分布 ， 我们 已 经 知道 了 如 何 使 用 map() 函数 来 完成 这 个 任务 : 


mu <- list(5, 10, -3) 
mu %>% 
map(rnorm, n = 5) %>% 
StF() 
Y> List of 3 
#> $ +; num [1:5] 5.45 5.5 5,78 6.51 3.18 
#> Š : num [1:5] 10.79 9.03 10.89 10.76 10.65 
#> Š : num [1:5] -3.54 -3.08 -5.01 -3.51 -2.9 


如 果 还 想 让 标准 差 也 不 同 ， 那 么 该 怎么 办 呢 ? 其 中 一 种 方法 是 使 用 均值 向 量 和 标准 差 向 量 
PIRI EITEN: 


sigma <- list(1, 5, 10) 
seq_along(mu) %>% 
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map(~rnorm(5, mu[[.]], sigma[[.]])) %>% 
str() 
#> List of 3 
WS S £ num: [3:57 294 2.57 2,37 4:12 5.29 
Ws S o num [1S] 21.72 S¿32 11:46 30.24. 12.22 
#> Š +; num [135] 3.68 =6:12 22.24 =7.2 10.37 


但 是 这 种 方法 很 难 让 人 理解 代码 的 本 意 。 相 反 ， 我 们 应 该 使 用 map2() 国 数 ， 它 可 以 对 两 个 
向 量 进 行 同步 进 代 : 

map2(mu, sigma, rnorm, n = 5) %>% str() 

#> List of 3 

Ws S š Dun [15] 4:78 5:59 4:99: 4.3 4.47 


#> $: num [1:5] 10.85 10.57 6.02 8.82 15.93 
#> $ : num [1:5] -1.12 7.39 -7.5 -10.09 -2.7 


map2() 国 数 可 以 生成 以 下 一 系列 国 数 调 用 : 





mu sigma map2(mu, sigma, rnorm, n = 5) 


注意 ， 每 次 调用 时 值 发 生变 化 的 参数 (这 里 是 mu 和 sigma) 要 放 在 映射 函数 (这 里 是 
rnorm) 的 前 面 ， 值 保持 不 变 的 参数 (这 里 是 n) 要 放 在 映射 函数 的 后 面 。 
和 map() 函数 一 样 ，map2() 函数 也 是 对 for 循环 的 包装 : 


map2 <- function(x, y, f, ...) ( 
out <- vector("list", length(x)) 
for (i in seq_along(x)) í 
out[[i]] <- f(x[[i]], y[[il], ...) 
} 






















out 


} 


还 可 以 开发 na3()、map4()、map5()、map6() 等 ， 但 这 样 你 很 快 就 会 感到 无 聊 。 相 反 ，purrr 
提供 了 pmap() 函数 ， 它 可 以 将 一 个 列表 作为 参数 。 如 果 你 想 生 成 均值 、 标 准 差 和 样本 数量 
都 不 相同 的 正 态 分 布 ， 那 么 就 可 以 使 用 这 个 函数 : 


i <= LS 2, 5) 
args1 <- list(n, mu, sigma) 
args1 %>% 
pmap(rnorm) %>% 
str() 
#> List of 3 
#> Sos NUm 4.55 
#> $ : num [1:3] 13.4 18.8 13.2 
#> $ : num [1:5] 0.685 10.801 -11.671 21.363 -2.562 


形 表示 如 下 所 示 : 
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pmap(args1) 


ormel, 5, 1) 





rnorm(3, 10, 5) 
rnorm(5, 一 3 10) 








如 果 没 有 为 列表 的 元 素 命 名 ， 那 么 pmap() 在 调用 函数 时 就 会 按照 位 置 匹 配 。 这 样 做 比较 容 
易 出 错 ， 而 且 会 让 代码 的 可 读 性 变 差 ， 因 此 最 好 使 用 命名 参数 : 

args2 <- list(mean = mu, sd = sigma, n = n) 

args2 %>% 


pmap(rnorm) %>% 
str() 


这 样 生成 的 函数 调用 更 长 一 些 ， 但 更 安全 : 





pmap(args2) 


rnorm(mu = 5, sigma = 1, n = 1) 
rnorm(mu = 10, sigma = 5, n = 3) 


| rnornu = -3, sigma = 10, n = 5) 





























因为 长 度 都 是 相同 的 ， 所 以 可 以 将 各 个 参数 保存 在 一 个 数据 框 中 : 


params <- tribble( 
~mean, ~sd, ~n, 


5 1, 31; 
40, Ss 312 
3; 10; 5 
) 
params %>% 
pmap(rnorm) 
#> [[1]] 
#> [1] 4.68 
#> 
#> [[2]] 
#> [i] 23.44 12.85 7.28 
#> 
#> [[3]] 


#> [1] -5.34 -17.66 0.92 6.06 9.02 


当代 码 变 得 比较 复杂 时 ， 我 们 认为 使 用 数据 框 是 一 种 非常 好 的 方法 ， 因 为 这 样 可 以 确保 每 
列 都 具有 名 称 ， 而 且 与 其 他 列 具 有 相同 的 长 度 。 


调用 不 同 函 数 
还 有 一 种 更 复杂 的 情况 : 不 但 传 给 函数 的 参数 不 同 ， 甚 至 函数 本 身 也 是 不 同 的 。 
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f <= e("runif", "rnmoópm", "epolts") 
param <- list( 
list(min = -1, max = 1), 
Ltst(Csd = Sy; 
lust(lambda = 10) 
) 


为 了 处 理 这 种 情况 ， 你 可 以 使 用 invoke_map() 函数 : 


invoke_map(f, param, n = 5) %>% str() 
#> List of 3 
Ws $ š nüm [ti 





. 762 0.36 -0.714 0.531 0.254 


5] 0 
#> Š : num [1:5] 3.07 -3.09 1.1 5.64 9.07 
#> 5 int [1:5] 9 34 8 9 7 
* params invoke_map(f, params, n = 5) 
p ———— —mmo 
min max 








Hmi” = q runif(min = -1, max = 1, n = 5) 
d 
"rnorm" rnorm(sd = 5, n = 5) 


"ppois" [io] | rpois(lambda = 10, n = 5 
第 一 个 参数 是 一 个 国 数列 表 或 包含 国 数 名 称 的 字符 向 量 。 第 二 个 参数 是 列表 的 一 个 列表 ， 
其 中 给 出 了 要 传 给 各 个 函数 的 不 同 参数 。 随 后 的 参数 要 传 给 每 个 函数 。 


> w 


同样 地 ， 我 们 可 以 通过 tribble() 函数 使 得 这 些 参数 配对 更 加 容易 : 












































J 











sim <- tribble( 
~f, ~params, 
"Funtf", list(mtn 3 <1, max = 1); 
"rnorm", list(sd = 5), 
"rpois", list(lambda = 10) 
) 


sim %>% 
mutate(sim = invoke_map(f, params, n = 10)) 


16.8 游 走 函数 

如 果 调 用 函数 的 目的 是 利用 其 副作用 ， 而 不 是 返回 值 时 ， 那 么 就 应 该 使 用 游 走 函数 ， 而 不 
是 映射 函数 。 通 常 来 说 ， 使 用 这 个 函数 的 目的 是 在 屏幕 上 提供 输出 或 者 将 文件 保存 到 磁 
盘 一 一 重要 的 是 操作 过 程 ， 而 不 是 返回 值 。 以 下 是 一 个 非常 简单 的 示例 : 


X <= Uist(l, "a", 3) 











x %>% 
walk(print) 

#> [1] 1 

#ə [1] "a" 

g. 1 3 





一 般 来 说 ，watk() 函数 不 如 walk2() 和 pwalk() 实用 。 例 如 ， 如 果 有 一 个 图 形 列 表 和 一 个 
文件 名 向 量 ， 那 么 你 就 可 以 使 用 pwatk() 将 每 个 文件 保存 到 相应 的 磁盘 位 置 : 


library(ggplot2) 
plots <- mtcars %>% 

split(.$cyl) %>% 

map(-ggplot(., aes(mpg, wt)) + geom_point()) 
paths <- stringr::str_c(names(plots), ".pdf") 





pwalk(list(paths, plots), ggsave, path = tempdir()) 


walk(). walk2() 和 pwalk() 都 会 隐 式 地 返回 .x， 即 第 一 个 参数 。 这 使 得 它们 非常 适用 于 
管道 操作 。 


16.9 for 循环 的 其 他 模式 


purr 还 提供 了 其 他 一 些 函 数 ， 可 以 对 for 循环 的 其 他 模式 进行 抽象 。 虽 然 i 
比 映射 函数 低 ， 但 了 解 一 下 还 是 有 用 的 。 本 市 的 目的 就 是 对 这 些 函 数 进行 简单 介绍 ， 以 便 
你 将 来 遇 到 类 似 问题 时 能 够 想起 它们 ， 再 查阅 文档 以 获得 更 多 详细 信息 。 


16.9.1 预测 EKI 数 
一 些 国 数 可 以 与 返回 TRUE 或 FALSE 的 预测 函数 一 同 使 用 。 
keep() 和 discard() 国 数 可 以 分 别 保留 输入 中 预测 值 为 TRUE 和 FALSE 的 元 素 : 


iris %>% 
keep(is.factor) %>% 
str() 
办 > 'data.frame': 150 obs. of 1 variable: 


"n n 


#> $ Species: Factor w/ 3 levels "setosa", "versicolor",..: ... 





iris %>% 
discard(is.factor) %>% 


str() 
办 > 'data.frame': 150 obs. of 4 variables: 
#> S$ Sepal,Length: num 5.31 42.9 4:7 4.6 Š 5.4 4.6 5 4.4 4.9, 
#> 5 Sepal Width = nüm 3.5 3 3.2 3.1 3.6 39 3.2 23.4 29 3, 
#> -5 Petal,Length: num 1.4 1.4 33 3.5 1.4 1.7 1.4 15 Td 
#> $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 . 


some() 和 every() 函数 分 别 用 来 确定 预测 值 是 否 对 某 个 元 素 为 真 以 及 是 否 对 所 有 元 素 为 真 : 


x <- list(1:5, letters, list(10)) 


X %>% 
some(is_character) 
#> [1] TRUE 


x %>% 
every(is_vector) 
#> [1] TRUE 
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detect() 国 数 可 以 找 出 预测 值 为 真 的 第 一 个 元 素 ，detect_index() 国 数 则 可 以 返回 这 个 元 
素 的 位 置 ; 


x <- sample(10) 
X 
#> [1] 8 7 5 6 9 210 1 3 4 


x %>% 
detect(~ . > 5) 
#> [1] 8 
x %>% 
detect_index(- . > 5) 
#> [1] 1 
head_while() 和 tatl_while() 分 别 从 向 量 的 开头 和 结尾 找 出 预测 值 为 真 的 元 素 : 


x %>% 
head_while(- . > 5) 
#> [41] 8 7 


x %>% 
tail_while(~ . > 5) 
#> integer(0) 


16.9.2 ” 归 约 与 累计 

对 于 一 个 复杂 的 列表 ， 有 时 你 想 将 其 归 约 为 一 个 简单 列表 ， 方式 是 使 用 一 个 函数 不 断 将 两 
个 元 素 合 成 一 个 。 如 果 想 要 将 两 表 间 的 一 个 dplyr 操作 应 用 于 多 张 表 ， 那 么 这 种 方法 是 非 
常 适合 的 。 例 如 ， 如 果 你 有 一 个 数据 框 列 表 ， 并 想 要 通过 不 断 将 两 个 数据 框 连接 成 一 个 的 
方式 来 最 终生 成 一 个 数据 框 : 











— 























dfs <- list( 
age = tibble(name = "John", age = 30), 
sex = tibble(name = c("John", "Mary"), sex = c("M", "F")), 
trt = tibble(name = "Mary", treatment = "A") 

) 


dfs %>% reduce(full_join) 
#> Joining, by = "name" 
#> Joining, by = "name" 
#> # A tibble: 2 x 4 





#> name age sex treatment 

HS, -chre <dbls-<chr> <chr> 

#> 1 John 30 M <NA> 

#> 2 Mary NA F A 
或 者 你 想 要 找 出 一 张 向 量 列表 中 的 向 量 间 的 交集 : 

vs <- list( 


c(1, 3, 5, 6, 10), 
cll; 2, 3; ?, 8, 10), 
c(l., 2, 3, 4, 8, 9, 30) 





) 


vs %>% reduce(intersect) 

#> [1] 1 310 
reduce() 函数 使 用 一 个 “二 元 ”函数 〈 即 具有 两 个 基本 输入 的 国 数 ) ， 将 甚 不 断 应 用 于 一 
个 列表 ， 直 到 最 后 只 剩 下 一 个 元 素 为 止 。 


累计 函数 与 归 约 函数 很 相似 ， 但 前 者 会 保留 所 有 中 间 结 果 。 你 可 以 使 用 它 来 实现 累计 求 
FH: 


x <- sample(10) 

x 

#5 TI -6 9. 8° 52 4 7 3 30 3 
x %>% accumulate(`+`) 

#> [1] 6 15 23 28 30 34 41 42 52 55 





16.9.3 ”练习 
(1) 使 用 for 循环 实现 一 个 自 定 义 的 every() 函数 ， 并 将 其 与 purrr::every() 比较 一 下 。 
purrr 版 的 函数 具有 哪些 自 定义 函数 中 没有 的 功能 ? 
(2) 创建 一 个 加 强 版 的 coL_sum() 函数 ， 将 摘要 函数 应 用 于 数据 框 的 每 个 数值 列 。 
(3)R 基础 包 中 可 能 与 col_sum() 等 价 的 一 个 函数 是 : 
col_sum3 <- function(df, f) í 


is_num <- sapply(df, is.numeric) 
df_num <- df[, is_num] 

















sapply(df_num, f) 


但 这 个 函数 在 使 用 以 下 输入 时 出 现 了 几 个 bug: 
df <- tibble( 


x = 1:3, 

y= 3:11; 

z = c("a", "b", "c") 
) 
# 没 问 题 


col_sum3(df, mean) 

# 有 问题 : 不 要 总 是 返回 数字 向 量 
col_sum3(df[1:2], mean) 
col_sum3(df[1], mean) 
col_sum3(df[0], mean) 


引发 bug 的 原因 是 什么 呢 ? 
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第 四 部 分 


模型 





我 们 已 经 掌握 了 强大 的 编程 工具 ， 现 在 终于 可 以 开始 建 模 了 。 在 这 一 部 分 中 ， 我 们 将 使 用 
新 的 数据 处 理 和 编程 工具 来 拟 合 多 种 模型 ， 并 理解 其 工作 原理 。 本 书 的 重点 在 于 数据 控 
索 ， 而 不 是 假设 验证 或 正式 推断 ， 但 你 还 是 可 以 学 到 几 种 基本 工具 ， 以 帮助 你 理解 模型 中 
的 变化 。 





















































可 视 化 








编程 

模型 的 作用 是 提供 一 个 简单 的 、 低 维度 的 数据 集 摘要 。 理 想 情 况 下 ， 模 型 可 以 捕获 真正 的 
“信号 ”( 即 由 我 们 感 兴趣 的 现象 生成 的 模式 )， 并 忽略 “噪声 ”( 即 我 们 不 感 兴 趣 的 随机 变 
动 )。 这 里 我 们 只 介绍 “预测 ”模型 ， 顾名思义 ， 也 就 是 能 够 生成 预测 的 模型 。 我 们 不 打 
算 在 本 书 中 讨论 另 一 类 模型 ， 即 “数据 发 现 ” 模 型 。 这 种 模型 的 目标 不 是 进行 预测 ， 而 是 
帮助 我 们 发 现 数据 中 有 趣 的 关系 。( 这 两 类 模型 有 时 分 别称 为 监督 式 模型 和 非 监 督 式 模型 ， 
但 我 们 认为 这 两 个 术语 不 是 很 有 启发 性 。) 
本 书 不 会 使 得 你 对 模型 背后 的 数学 理论 有 更 次 刻 的 理解 ， 但 会 帮助 你 建立 对 统计 模型 工作 
原理 的 直观 认识 ， 并 且 会 向 你 介绍 一 整套 有 用 的 工具 ， 以 便 帮 助 你 使 用 模型 来 更 深刻 地 理 
解数 据 。 

第 17 章 将 介绍 模型 的 运行 机 制 ,重点 在 于 一 些 重要 的 线性 模型 。 你 将 掌握 一 些 通用 工具 ， 

以 深刻 理解 预测 模型 如 何 对 数据 进行 预测 。 我 们 将 主要 使 用 简单 的 模拟 数据 集 进行 介绍 。 



































° 第 18 章 将 介绍 如 何 使 用 模型 从 真实 数据 中 提取 已 知 模式 。 一 旦 识别 出 一 种 重要 模式 ， 
那 你 就 应 该 用 一 个 模型 将 其 明确 表示 出 来 ， 因 为 随后 你 就 可 以 更 容易 地 发 现 剩余 的 微妙 
信号 。 

。 第 19 章 将 介绍 如 何 使 用 多 个 简单 模型 来 帮助 理解 复杂 数据 集 。 这 是 一 种 非常 强大 的 技术 ， 
但 需要 结合 使 用 建 模 工具 和 编程 工具 才能 掌握 这 种 技术 。 

这 些 内 容 都 非常 重要 ， 因 为 我 们 没有 对 定量 评估 模型 工具 做 任何 介绍 。 我 们 这 样 做 是 经 过 

RERBA: 精确 地 量化 模型 需要 大 量 背 景 知识 ， 而 本 书 无 法 一 一 介绍 。 现 在 ， 你 能 依靠 

的 只 有 定性 评估 技术 和 自己 的 怀疑 精神 。18.4 节 会 介绍 一 些 其 他 资源 ， 以 供 你 进一步 学 习 。 


假设 生成 和 假设 验证 


在 本 书 中 ， 我 们 将 模型 作为 一 种 数据 探索 工具 ， 这 样 就 补 全 了 第 一 部 分 中 介绍 过 的 EDA 

三 工具 。 这 不 是 常用 的 模型 学 习 方式 ， 但 正如 你 将 看 到 的 ， 模 型 确实 是 一 种 重要 的 数据 探 

索 工 具 。 通 常 来 说 ， 建 模 的 重点 在 于 推断 或 验证 假设 是 否 为 真 。 正 确 地 完成 这 些 任务 并 不 

复杂 ， 但 相当 困难 。 为 了 正确 进行 推断 ， 你 必须 明确 以 下 两 点 。 

。 每 个 观测 都 可 以 用 于 数据 探索 ， 也 可 以 用 于 假设 验证 ， 但 不 能 同时 在 二 者 中 使 用 。 

。 在 进行 数据 探索 时 ， 一 个 观测 可 以 使 用 任意 多 次 ， 但 进行 假设 验证 时 ， 一 个 观测 只 能 使 
用 一 次 。 一 旦 使 用 两 次 观测 ， 假 设 验 证 就 会 变 成 数据 探索 。 

这 两 点 是 非常 必要 的 ， 因 为 要 想 验 证 假设 ， 你 必须 使 用 与 生成 假设 的 数据 无 关 的 数据 。 否 

则 ， 你 就 过 于 乐观 了 。 在 进行 数据 探索 时 ， 没 有 完全 错误 的 结论 ， 但 永远 不 能 将 探索 性 分 

析 与 验证 性 分 析 混为一谈 ， 因 为 这 样 做 肯定 会 让 你 误 入 歧途 。 

如 有 果 想 要 严肃 认真 地 进行 验证 性 分 析 ， 一 种 方法 是 在 进行 分 析 前 将 数据 分 成 3 个 部 分 。 

° 将 60% 的 数据 作为 训练 集 ， 或 称 探索 集 。 你 可 以 对 这 部 分 数据 进行 任意 操作 ， 比 如 可 

视 化 ， 或 者 用 数据 拟 合 多 个 模型 。 

。 将 20% 的 数据 作为 查询 集 。 你 可 以 使 用 这 部 分 数据 来 比较 模型 或 者 进行 手动 可 视 化 ， 

但 不 能 将 其 用 于 自动 化 过 程 。 

。 将 20% 的 数据 留 作 测 试 集 。 这 部 分 数据 只 能 使 用 一 次 ， 用 于 测试 最 终 模型 。 

通过 这 种 数据 划分 方法 ， 你 可 以 使 用 训练 集 数据 进行 探索 ， 偶 尔 生 成 候选 假设 ， 并 使 用 

查询 集 数据 进行 验证 。 确 信 已 经 得 到 正确 的 模型 后 ， 你 就 可 以 使 用 测试 集 数 据 进 行 一 次 

验证 了 。 

(注意 ， 即 使 正在 进行 验证 性 建 模 ， 你 还 是 需要 做 EDA。 如 果 不 做 任何 EDA， 那 么 你 就 会 

对 数据 的 质量 问题 一 无 所 知 。) 
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第 17 章 


使 用 modelr 实 现 基础 模型 





17.1 简介 

建立 模型 的 目的 是 提供 一 个 简单 的 、 低 维度 的 数据 集 摘 要 。 在 本 书 中 ， 我 们 使 用 模型 的 目 

的 是 将 数据 划分 为 模式 和 残 差 。 因 为 强大 的 模式 往往 会 掩盖 住 微妙 的 趋势 ， 所 以 我 们 将 借 

助 模型 探索 数据 集 ， 一 层 层 地 和 剥 开 覆盖 在 数据 集结 构 上 的 神秘 面纱 。 

但 是 ， 在 开始 对 感 兴趣 的 真实 数据 应 用 模型 前 ， 我 们 需要 先 理 解 模 型 的 工作 原理 。 因 此 ， 

本 章 是 特殊 的 一 章 ， 它 使 用 的 是 模拟 数据 集 。 这 些 数 据 集 非 常 简 单 ， 而 且 一 点 儿 也 不 有 

趣 ， 但 它们 确实 可 以 帮助 你 理解 建 模 的 本 质 ， 这 样 你 就 可 以 在 下 一 章 中 使 用 同样 的 技术 来 

处 理 真 实数 据 了 。 

建 模 过 程 可 以 分 为 两 个 阶段 。 

(1) 首先 ， 你 需要 定义 一 个 模型 族 来 表示 一 种 精确 但 一 般 性 的 模式 ， 这 种 模式 就 是 我 们 想 要 
捕获 的 。 例 如 ， 模 式 可 以 是 一 条 直线 或 一 条 二 次 曲线 。 你 可 以 用 方程 来 表示 模型 族 ， 比 
如 y=alxx+a2 或 y=alx*x^a2， 其 中 x 和 y 是 数据 集中 的 已 知 变量 ，a 1 
和 a_2 是 参数 。 我 们 可 以 通过 改变 参数 来 捕获 不 同 的 模式 。 

D 接 下 来 你 要 生成 一 个 拟 合 模型 ， 方 法 是 从 模型 族 中 找 出 最 接近 数据 的 一 个 模型 。 这 个 阶 
段 使 得 一 般 性 的 模型 族 具 体 化 为 特定 模型 ， 如 y =3*x+7 或 y = 9 * x^2。 

拟 合 模型 只 是 模型 族 中 与 数据 最 接近 的 一 个 模型 ， 理 解 这 一 点 非常 重要 。 这 意味 着 你 找到 

了 “最 佳 ”模型 (按照 菜 些 标 准 )， 但 并 不 意味 着 你 找到 了 良好 的 模型 ， 而 且 也 绝 不 代表 

这 个 模型 是 “ 真 的 "。George Box 有 一 句 名 言说 得 很 好 : 


所 有 模型 都 是 错误 的 ， 但 有 些 是 有 用 的 。 
这 人 句 名 言 的 完整 上 下 文 值得 一 读 。 
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如 果 一 个 简单 模型 可 以 精确 表示 真实 世界 中 的 菜 个 系统 ， 那 将 非常 了 不 起 。 然 而 
巧妙 地 选择 简约 模型 经 常 可 以 提供 非常 好 的 近似 表示 。 例如， 定律 pV = RT 通过 
一 个 常数 RR 将 “理想 ”气体 的 压强 p、 体 积 V 和 温度 了 关联 起 来 。 虽 然 这 对 于 任 
何 真实 气体 来 说 都 是 不 精确 的 ， 但 在 很 多 情况 下 都 是 一 种 良好 的 近似 。 此 外 ， 这 
个 方程 的 结构 包含 非常 丰富 的 信息 ， 因 为 它 来 自 于 对 气体 分 子 行为 的 实证 研究 。 

对 于 这 样 的 模型 ， 我 们 不 需要 提出 “这 个 模型 是 真 的 吗 ? ”这 类 问题 。 如 果 
“ 真 ”的 含义 是 “绝对 真 "， 那 么 答案 肯定 是 “不 ”。 我 们 唯一 感 兴趣 的 问题 是 
“模型 是 否 具 有 启发 性 ， 是 否 有 用 ? ” 

模型 的 目标 不 是 发 现 真 理 ， 而 是 获得 简单 但 有 价值 的 近似 。 


准备 工作 
本 章 将 使 用 modelr 包 对 R 基础 包 中 的 建 模 函 数 进行 包装 ， 使 其 可 以 支持 管道 操作 。 


library(tidyverse) 



































library(modelr) 
options(na.action = na.warn) 


17.2 一 个 简单 模型 


我 们 研究 一 下 模拟 数据 集 stm1， 它 包含 两 个 连续 型 变量 x 和 y。 我 们 将 这 两 个 变量 绘制 出 
来 ， 以 查看 二 者 间 的 关系 : 


ggplot(siml, aes(x, y)) + 
geom_point() 
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你 可 以 看 到 数据 中 存在 一 种 非常 强 的 模式 。 接 下 来 我 们 使 用 模型 来 捕获 这 种 模式 ， 并 将 其 
明确 表示 出 来 。 我 们 的 任务 是 确定 模型 的 基本 形式 。 在 以 上 示例 中 ， 变 量 间 的 关系 应 该 是 
线性 的 , 即 y= a_0 + a_1 * x。 首 先 ， 我 们 随机 生成 一 些 模型 ， 并 将 其 覆盖 到 数据 上 ， 通 
过 这 种 方式 感受 一 下 这 个 模型 族 中 的 模型 形式 。 对 于 这 个 简单 示例 ， 我 们 可 以 使 用 geom_ 
abline() 函数 ， 它 接受 斜率 和 截 距 作为 参数 。 随 后 我 们 将 学 习 可 以 用 于 任意 模型 的 更 通用 
的 技术 : 


























models <- tibble( 
al = runif(250, -20, 40), 
a2 = runif(250, -5, 5) 

) 


ggplot(sim1, aes(x, y)) + 
geom_abline( 
aes(intercept = a1, slope = a2), 
data = models, alpha = 1/4 
) + 


geom_point() 








这 张 图 中 有 250 个 模型 ， 但 很 多 都 是 非常 粳 糕 的 ! 直觉 告诉 我 们 ， 良 好 的 模型 应 该 与 数据 
非常 “接近 "， 因 此 我 们 需要 一 种 方法 来 量化 数据 与 模型 之 间 的 距离 。 然 后 ， 找 出 使 得 模 
型 与 数据 间 的 距离 最 近 的 ae 和 a_1 的 值 ， 就 可 以 拟 合 出 最 优 模型 。 

其 中 一 种 简单 的 方法 是 找 出 每 个 数据 点 与 模型 之 间 的 垂直 距离 ， 如 下 图 所 示 。( 注 意 ， 我 
们 将 x 值 稍稍 移动 了 一 下 ， 以 便 能 够 看 清 每 个 距离 。) 
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这 个 距离 就 是 由 模型 计算 出 的 y 值 (预测 值 ) 与 数据 中 的 实际 y 值 〈 响 应 变量 ) 之 间 的 差 。 
为 了 计算 出 这 个 距离 ， 首 先 要 将 模型 族 转 换 为 一 个 R 函数 。 这 个 函数 将 模型 参数 和 数据 作 
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为 输入 ， 并 使 用 模型 预测 值 作为 输出 : 


model1 <- function(a, data) { 
a[1] + data$x * a[2] 


model1(c(7, 1.5), siml) 

Ws [i] 8.5 BS 8:5 30.0 10:0 10.0 3.5 31.5 12.5 343.0 
#> [12] 33.0 14:5 34.5 14.5 16.0 16:0 16.0 17.5 17.5 17.5 
#> [23] 19.0 19.0 20.5 20.5 20.5 22.0 22.0 22.0 


接 下 来 ， 我 们 需要 某 种 方法 来 计算 预测 值 与 实际 值 之 间 的 总 体 距离 。 换 句 话 说 ， 图 中 显示 
了 30 个 距离 ， 我 们 如 何 将 这 些 距 离 转换 成 一 个 数值 呢 ? 


要 想 完成 这 个 任务 ， 统 计 学 中 的 一 种 常用 方法 是 计算 “ 均 方 根 误差 *。 先 计算 实际 值 与 预 
测 值 之 间 的 差 ， 对 其 取 平 方 ， 然 后 求 平均 数 ， 最 后 再 计算 出 平方 根 。 这 种 距离 表示 方式 具 
有 很 多 奇妙 的 数学 特性 ， 这 里 就 不 介绍 了 。 相 信 我 们 吧 ， 没 错 的 ! 

measure_distance <- function(mod, data) { 


diff <- data$y - modell(mod, data) 
sqrt(mean(diff ^ 2)) 


13.0 
19.0 














} 
measure_distance(c(7, 1.5), sim1) 
#> [1] 2.67 





现在 可 以 使 用 purrr 来 计算 前 面 定义 的 所 有 模型 和 数据 间 的 距离 了 。 我 们 需要 一 个 辅助 国 
数 ， 因 为 距离 函数 希望 模型 是 一 个 长 度 为 2 的 数值 向 量 : 
sim1_dist <- function(al, a2) í 


measure_distance(c(al, a2), siml) 


) 














models <- models %>% 
mutate(dist = purrr::map2_dbl(a1, a2, siml_dist)) 


models 
#> # A tibble: 250 x 3 
#> a1 a2 dist 


#> <dbl> <dbl> <dbl> 
#> 1 -15.15 0.0889 30.8 
#> 2 30.06 -0.8274 13.2 
#> 3 16.05 2.2695 13.2 
#> 4 -10.57 1.3769 18.7 
#> 5 -19,56 -1,0359 41-8 
#> 6 7.98 4.5948 19.3 
#> # ... with 244 more rows 


下 一 步 ， 我 们 将 最 好 的 10 个 模型 覆盖 到 数据 上 。 使 用 -dist 为 模型 上 色 ， 这 样 我 们 就 很 容 
易 看 出 ， 最 佳 模型 《 即 距离 最 小 的 模型 ) 具有 最 明亮 的 颜色 : 


ggplot(siml, aes(x, y)) + 
geom_point(size = 2, color = "grey30") + 
geom_abline( 
aes(intercept = a1, slope = a2, color = -dist), 
data = filter(models, rank(dist) <= 10) 
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我 们 还 可 以 将 这 些 模 型 看 作 观 测 ， 并 使 用 由 al 和 az 组 成 的 一 张 散 点 图 来 表示 它们 ， 还 是 
使 用 -dist 进行 上 色 。 虽 然 这 样 不 能 直接 看 到 模型 与 数据 间 的 比较 ， 但 我 们 可 以 同时 看 到 
很 多 模型 。 同 样 ， 我 们 高 亮 显示 前 10 个 最 佳 模型 ， 这 次 是 通过 在 其 下 面 画 出 红色 圆圈 : 




















ggplot(models, aes(al, a2)) + 
geom_point( 
data = filter(models, rank(dist) <= 10), 
size = 4, color = "red" 


) + 
geom_point(aes(colour = -dist)) 
5.0 ° 
s. Sa °° . £ É: ° ° Š. ° ee 
qe . a ° e. = `. s č °. < 
e ° 
2.5- è ` * z ° ot g e °. 
= Be 4 °. °. —dist 
°. . ° ° 
° o Yo ee Wapu S 10 
TAT z ° sr sss ° 2 
° e oot . .. = 
N ° ° .° .. e ° 
w 00 E == x” amaii - Pe.. -30 
S00 ... ee o, e ea art Sis, 
. ° ə š ° š ° o $ -50 
-25- © "a ° TEn ° 380 
. 
m °°. o i š T e° š 
. e° . = ee 
x : ç - , 2 ° x .. 
e x ° ° °°. ° Š Te i 2 
-20 0 20 40 
al 





相 较 于 检查 多 个 随机 模型 ， 我 们 使 用 一 种 更 加 系统 化 的 方法 来 找 出 模型 参数 (这 种 方法 称 
为 网 格 搜 索 法 )。 首 先 ， 我 们 生成 一 张 分 布 均匀 的 数据 点 网 格 ， 然 后 将 这 个 网 格 与 前 面 图 
中 的 10 个 最 佳 模型 绘制 在 一 张 图 中 ,凭借 最 佳 模型 在 网 格 中 的 位 置 就 可 以 找 出 模型 参数 
的 粗略 值 : 

grid <- expand.grid( 


seq(-5, 20, length = 25), 
seq(1, 3, length = 25) 
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) %>% 


:map2_dbl(a1, a2, siml_dist)) 


mutate(dist = purrr: 


grid %>% 


ggplot(aes(a1, a2)) + 


geom_point( 


data = filter(grid, rank(dist) <= 10), 


"red" 


size = 4, colour 


) + 


-dist)) 


geom_point(aes(color 
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如 有 果 将 这 10 个 最 佳 模型 重新 覆盖 到 原始 数据 上 ， 就 可 以 看 出 效果 还 是 很 不 错 的 : 


ggplot(siml, aes(x, y)) + 


"grey30") + 


geom_point(size = 2, color 


geom_abline( 


-dist)， 


aes(intercept = al, slope = a2, color 


data = filter(grid, rank(dist) <= 10) 
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可 以 设想 不 断 细 化 网 格 来 最 终 找 出 最 佳 模型 。 但 还 有 一 个 更 好 的 方法 可 以 解决 这 个 问题 ， 


这 种 方法 是 名 为 “牛顿 一 拉夫 还 搜索 ”的 数值 最 小 化 工具 。 牛 顿 一 拉夫 还 方法 的 直观 解释 





非常 简单 : 先 选择 一 个 起 点 ， 环 顾 四 周 找到 最 陡 的 斜坡 ， 并 沿 着 这 个 斜坡 向 下 滑行 一 小 段 ， 
然后 不 断 重 复 这 个 过 程 ， 直 到 不 能 再 下 请 为 止 。 在 了 中 ， 我 们 可 以 使 用 optim() 函数 来 完 
成 这 个 任务 : 

best <- optim(c(0, 0), measure distance, data = sim1) 


best$par 
#> [1] 4.22 2.05 





ggplot(sim1, aes(x, y)) + 
geom_point(size = 2, color = "grey30") + 
geom_abline(intercept = best$par[1], slope = best$par[2]) 
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无 须 过 多 担心 optim() 国 数 的 工作 细节 。 现 在 重要 的 是 要 建立 直觉 。 如 果 具 有 定义 模型 与 
数据 集 间距 离 的 国 数 ， 以 及 可 以 通过 修改 模型 参数 使 距离 最 小 化 的 算法 ， 那 么 我 们 就 可 以 
找 出 最 佳 模型 。 以 上 这 种 方法 的 好 处 是 ， 上 只 要 能 够 写 出 方程 来 表示 模型 族 ， 那 么 你 就 可 以 
使 用 这 种 方法 。 
对 于 这 个 模型 ， 我 们 还 可 以 使 用 另 一 种 方法 ， 因 为 它 是 一 个 更 广泛 模型 族 的 一 种 特殊 情 
况 ， 即 是 线性 模型 。 线 性 模型 的 一 般 形式 是 y = al + 32*x1+ta3*xX2+ +a 
n * x_(n - 1)。 因 此 ， 这 个 简单 模型 就 等 价 于 n 为 2 且 x_1 为 x 的 一 般 线 性 模型 。R 中 有 
专门 用 于 拟 合 线性 模型 的 工具 ， 即 tn() 函数 。tm() 用 一 种 特殊 方法 来 表示 模型 族 : 公式 。 
公式 的 形式 为 y ~ x, WO 会 将 这 种 形式 的 公式 转换 成 类 似 y = a_1 + a_2 * x 的 函数 。 我 
们 使 用 mO 来 拟 合 这 个 模型 ， 并 检查 输出 : 

siml_mod <- lm(y ~ x, data = siml) 

coef(siml_mod) 


#> (Intercept) x 
#> 4.22 2.05 


这 与 我 们 使 用 optim) 国 数 得 到 的 结果 完全 一 致 。Lm() 函数 使 用 的 并 不 是 optim()， 而 是 
利用 了 线性 模型 的 数学 结构 。 实 际 上 ，1m() 使 用 了 一 种 非常 复杂 的 算法 ， 通 过 几何 学 、 微 
职 分 和 线性 代数 间 的 一 些 关 系 ， 它 只 需要 一 个 步骤 就 可 以 找 出 最 近似 的 模型 。 这 种 方法 的 
速度 非常 快 ， 而 且 一 定 能 找到 全 局 最 小 值 。 
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练习 


(1) 线性 模型 的 一 个 缺点 是 ， 对 异常 值 非常 敏感 ， 因 为 距离 是 用 平方 项 表示 的 。 使 用 以 下 模 
拟 数据 拟 合 一 个 线性 模型 ， 并 对 结果 进行 可 视 化 表示 。 重 新 运行 儿 次 代码 ， 以 生成 不 同 
的 模拟 数据 集 。 对 于 这 个 模型 ， 你 有 什么 发 现 ? 

simla <- tibble( 

x = rep(1:10, each = 3), 

y = x * 1.5 + 6 + rt(length(x), df = 2) 
) 


(2) 要 想 使 得 线性 模型 更 加 健壮 ， 甚 中 一 种 方法 是 使 用 另 一 种 距离 度量 方式 。 例 如 ， 除 了 使 
用 均 方 根 误差 ， 你 还 可 以 使 用 平均 绝对 值 距离 : 


measure_distance <- function(mod, data) { 
diff <- dataŠy - make_prediction(mod, data) 
mean(abs(diff)) 



































使 用 optim() 函数 与 前 面 的 模拟 数据 拟 合 模型 ， 并 与 前 面 的 线性 模型 对 比 一 下 。 


G) 使 用 数值 最 优化 算法 的 一 个 问题 是 ， 只 能 保证 得 到 局 部 最 优 值 。 对 于 以 下 的 3 参数 模 
型 ， 执 行 最 优化 时 会 有 什么 问题 ? 
model1 <- function(a, data) { 


a[1] + data$x * a[2] + a[3] 
} 


17.3 ”模型 可 视 化 


对 于 简单 的 模型 ， 比 如 上 一 节 中 的 模型 ， 我 们 可 以 通过 仔细 检查 模型 族 和 拟 合 系数 来 找 出 
模型 捕获 的 模式 。 如 果 学 过 关于 建 模 的 统计 学 知识 ， 那 么 你 就 可 以 花费 大 量 时 间 来 做 这 件 
事 。 但 这 里 我 们 准备 介绍 另外 一 种 方法 ， 即 重点 通过 预测 来 理解 模型 。 这 种 方法 的 一 大 优 
点 是 ， 每 种 类 型 的 预测 模型 都 要 进行 预测 (否则 还 有 什么 用 处 ?)， 因 此 我 们 可 以 使 用 同 
样 的 技术 来 理解 任何 类 型 的 预测 模型 。 

找 出 模型 未 捕获 的 信息 也 是 非常 有 用 的 ， 即 所 谓 的 残 差 ， 它 是 数据 去 除 预 测 值 后 剩余 的 部 
分 。 残 差 是 非常 强大 的 ， 因 为 它 允 许 我 们 使 用 模型 去 除数 据 中 显著 的 模式 ， 以 便 对 剩余 的 
微妙 趋势 进行 研究 。 












































17.3.1 预测 


要 想 对 模型 的 预测 进行 可 视 化 表示 ， 首 先 要 生成 一 个 分 布 均匀 的 数值 网 格 ， 以 覆盖 数据 所 

在 区 域 。 完 成 这 个 任务 最 简单 的 方式 就 是 使 用 modelr::data_grid() 函数 ， 其 第 一 个 参数 

是 一 个 数据 框 ， 对 于 随后 的 每 个 参数 ， 它 都 会 找 出 其 中 的 唯一 值 ， 然 后 生成 所 有 组 合 : 
grid <- siml %>% 


data_grid(x) 
grid 
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办 # A tibble: 10 x 1 


#> X 
#> <int> 
#> 
#> 
#> 


#> 
#> 
#> 
#> 


$ ON Q + Ç) N F 
S Q + Ü PNN. 


. with 4 more rows 


(如 果 向 模型 中 添加 更 多 变量 ， 那 么 结果 会 更 有 趣 。) 


接着 添加 预测 值 。 我 们 使 用 的 是 modelr::add_predictions() 函数 ， 其 参数 是 一 个 数据 框 和 
一 个 模型 。 这 个 函数 可 以 将 模型 的 预测 值 作为 一 个 新 列 添加 到 数据 框 中 : 


grid <- grid %>% 
add_predictions(siml_mod) 

















grid 

#> # A tibble: 10 x 2 
#> x pred 

#> <int> <dbl> 

#> 1 T 6.27 

#> 2 2 8:32 

Ww 3 10.38 

#> 4 4 12.43 

#> 5 5 14.48 

#> 6 6 16.53 

#> # ... with 4 more rows 


(你 也 可 以 使 用 这 个 函数 将 预测 值 添 加 到 原始 数据 集中 ,) 


下 一 步 是 绘制 预测 值 。 你 可 能 很 奇怪 ， O 而 不 是 直接 使 用 
geom_abline() 国 数 。 因 为 这 种 方法 适合 R 中 的 所 有 模型 ， 不 管 是 最 简单 的 还 是 最 复杂 的 ， 
它 只 受 可 视 化 能 力 的 限制 。 如 果 想 要 对 更 加 复杂 的 模型 进 a. 可 以 参 萎 http://vita. 
had.co.nz/papers/model-vis.html 来 获取 更 多 相关 信息 。 


ggplot(siml, aes(x)) + 
geom_point(aes(y = y)) + 
geom_line( 

aes(y = pred), 
data = grid, 
colour = "red", 
size = 1 
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17.3.2 RÆ 


与 预测 值 相 对 的 是 残 差 。 预 测 值 可 以 告诉 我 们 模型 捕获 的 模式 ， 残 差 则 表示 模型 漏 掉 的 部 
分 。 残 差 就 是 我 们 前 面 计算 过 的 观测 值 与 预测 值 间 的 距离 。 


我 们 可 以 使 用 add_residuals() 函数 将 残 差 添加 到 数据 中 ， 这 个 函数 与 add_predictions() 
非常 相似 。 但 注意 ， 我 们 使 用 的 是 原始 数据 ， 不 是 生成 的 网 格 ， 因 为 计算 残 差 需要 使 用 实 
际 的 y 值 : 


siml <- siml %>% 
add_residuals(sim1_mod) 
sim1 
#> # A tibble: 30 x 3 
#> X y resid 
#> <ints <dbl> :<dbl> 
#> 1 3 4.20 -2:072 
#> 2 1 7:51. 1:238 
#> 3 1 2.13 -4.147 
#> 4 2 8.99 0.665 
#> 5 2 10.24 1.919 
#> 6 2 1130 2:973 
#> # ... with 24 more rows 


对 于 残 差 可 以 反映 出 模型 的 哪些 信息 ， 有 几 种 不 同 的 理解 方法 。 其 中 一 种 方法 是 简单 地 绘 
制 频率 多 边 形 图 ， 以 帮助 我 们 理解 残 差 的 分 布 : 


ggplot(siml, aes(resid)) + 
geom_freqpoly(binwidth = 0.5) 
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这 种 方法 可 以 反映 出 模型 的 质量 : 模型 预测 值 与 实际 观测 值 的 差别 有 多 大 ? 注意 ， 残 差 的 

平均 值 总 是 为 0。 

我 们 经 常会 使 用 残 差 代替 原 来 的 预测 变量 来 重新 绘图 。 你 将 在 下 一 章 中 看 到 大 量 这 种 操作 : 
ggplot(sim1, aes(x, resid)) + 


geom_ref_line(h = 0) + 
geom_point() 
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由 上 图 可 知 ， 残 差 应 该 是 随机 的 噪声 ， 这 表明 我 们 的 模型 非常 好 地 捕获 了 数据 集中 的 模式 。 


17.3.3 J 


(1) 除 了 使 用 mO 函数 拟 合 一 条 直线 ， 你 还 可 以 使 用 Loess() 函数 来 拟 合 一 条 平滑 曲线 。 使 
用 Loess() 代替 Lm() 对 simi 数据 集 重 复 模型 拟 合 、 网 格 生 成 、 预 测 和 可 视 化 的 过 程 ， 
并 将 结果 与 geom_smooth() 函数 进行 比较 。 




















(2) add_predictions() 国 数 还 伴 有 2 个 国 数 : gather_predictions() 和 spread_predicitons()。 
这 3 个 国 数 有 什么 不 同 ? 


(3) geom_ref_line() 国 数 的 功能 是 什么 ? 它 来 自 于 哪个 R 包 ? 在 显示 残 差 的 图 形 中 显示 一 
条 参考 线 是 非常 重要 和 有 用 的 ， 为 什么 这 么 说 呢 ? 
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(4) 为 什么 需要 检查 残 差 绝对 值 的 频率 多 边 形 图 ? 与 检查 残 差 本 身 相 比 ， 这 种 方式 有 什么 优 
缺点 呢 ? 


17.4 公式 和 模型 族 


在 前 面 使 用 facet_wrap() 和 facet_grid() 国 数 时 ， 我 们 已 经 见 过 了 公式 。 在 了 中 ， 公 式 
是 表示 “特殊 行为 ”的 一 种 通用 方式 。 公 式 不 对 变量 立刻 进行 求 值 ， 只 是 将 变量 表示 为 国 
数 能 够 理解 的 形式 。 
R 中 的 绝 大 多 数 建 模 函数 都 使 用 一 种 标准 转换 将 公式 转换 为 表示 模型 族 的 方程 。 我 们 已 
经 见 过 了 一 个 简单 的 转换 : y ~ x 转换 为 y = a_1 + a 2 * x。 如 果 想 看 R 到 底 进 行 了 什么 
转换 ， 可 以 使 用 model_matrix() 函数 。 这 个 函数 接受 一 个 数据 框 和 一 个 公式 ， 并 返回 
一 个 定义 了 模型 方程 的 tibble， 其 中 每 一 列 都 关联 到 方程 的 一 个 系数 ， 方 程 的 形式 总 是 类 似 
T y = a_1 * out1 + a_2 * out 2。 对 于 最 简单 的 情况 ，y ~ x1， 这 个 函数 会 返回 以 下 有 趣 的 
结果 : 
df <- tribble( 
~y，~X1，~X2， 
4, 2; 5 
e 10 
) 


model_matrix(df, y ~ x1) 
#> # A tibble: 2 x 2 









































#> `(Intercept)` x1 
#> <dbl> <dbl> 
由 i T 2 
#2 T 1 


R 向 模型 加 入 截 距 项 的 方法 是 ， 加 入 一 个 值 全 是 1 的 列 。 默 认 情 况 下 ，R 总 是 加 入 这 一 列 。 
如 果 不 想 要 截 距 项 ， 那 么 你 必须 使 用 -1 来 明确 丢弃 它 : 


model_matrix(df, y ~ x1 - 1) 
#> # A tibble: 2 x 1 


#> XI 
#> <dbl> 
#> 1 2 
#> 2 Z 


ARARE RRES E, AREE 4284 2 Z hac: 


model_matrix(df, y ~ xl + x2) 
#> # A tibble: 2 x 3 





#> `(Intercept)` x1 x2 
#> <dbl> <dbl> <dbl> 
#> 1 Z 2 5 
#> 2 1 I 6 


这 种 公式 表示 法 有 时 也 称 为 “Wilkinson-Rogers 表示 法 ”， 由 G. N. Wilkinson 和 C. E. Rogers 
在 其 论文 “Symbolic Description of Factorial Models for Analysis of Variance” 中 首次 提出 。 
如 果 想 要 了 解 这 种 模型 表示 法 的 全 部 细节 ， 可 以 仔细 研究 一 下 这 篇 论文 的 原文 。 


以 下 各 节 展 开 介 绍 了 如 何 使 用 这 种 公式 表示 法 来 表示 分 类 变量 、 交 互 项 以 及 变量 转换 。 
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17.4.1 分 类 变量 

















如 果 预 测 变 量 是 


连续 的 ， 那 么 从 公式 转换 为 方程 是 很 简单 的 ， 但 当 预 测 变 量 是 分 类 变量 


时 ,事情 就 有 点 复杂 了 。 假 设 存在 公式 y ~ sex, HP sex 的 值 要 么 是 男性 要 么 是 女性 ， 
因为 sex 不 是 数值 ， 我 们 不 能 对 它 
= x0 + x_1 * sex_male， 如 果 sex 为 男性 ， 





那么 将 其 转换 成 y = x0 + x_1 * sex 就 没有 意义 了 ， 
使 用 乘法 。 相 反 ，R 的 做 法 是 将 其 转换 为 y 
那么 sex_male 的 值 就 是 1， 否 则 其 值 就 是 0: 


df <- tribble( 
~ sex, ~ response, 


"Wale", 
"female" 
"male", 


) 


t; 
SEa 
1 

















model_matrix(df, response ~ sex) 
#> # A tibble: 3 x 2 

#> `(Intercept)` sexmale 
<dbl> <dbl> 


#> 

#> 1 
#> 2 
#> 3 


1 1 
1 0 
1 1 





你 可 能 想 知道 ， 为 什么 R 没有 同时 建立 一 个 sexfemale 列 。 问 题 是 ， 这 样 创建 出 来 的 列 是 
= 1 - sexmale)。 可 惜 的 是 ， 这 构成 问题 的 具 
的 讨论 范围 ， 大 致 就 是 这 样 做 会 建立 一 个 过 于 灵活 的 模型 族 ， 从 而 
生成 对 数据 拟 合 效果 相同 的 无 数 个 模型 。 
好 在 如 果 重 点 关注 对 预测 值 的 可 视 化 ， 那 么 就 无 须 担 心 具体 的 参数 值 。 我 们 使 用 数据 和 模 
型 进行 具体 的 说 明 。 以 下 是 modelr 中 的 sim2 数据 集 : 


ggplot(sim2) + 
geom point(aes(x, y)) 








可 以 基于 其 他 列 完美 预测 的 〈 即 sexfemale 





体 原因 已 经 超 日 


HTA 





我 们 可 以 拟 合 一 个 模型 ,并 生成 预 济 : 


mod2 <- lm(y ~ x, data = sim2) 


grid <- sim2 %>% 
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data_grid(x) %>% 
add_predictions(mod2) 


grid 

#> # À tibble: 4 x 2 
#> x pred 

#> <chr> <dbl> 

#> 1 q 1.15 

#> 2 D 8.42 

#> 3 € 612 

#> 4 d 1:91 





实际 上 ， 带 有 分 类 变量 x 的 模型 会 为 每 个 分 类 预测 出 均值 。( 为 什么 ?因为 均值 会 使 均 方 
根 距离 最 小 化 。) 如 果 将 预测 值 履 盖 到 原始 数据 上 ， 就 很 容易 看 出 这 一 点 


ggplot(sim2, aes(x)) + 
geom_point(aes(y = y)) + 
geom_point( 

data = grid， 

aes(y 
color 
size = 4 


) 
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能 对 未 观测 到 的 水 平 进行 预测 。 因 为 有 时 会 不 小 心 进行 这 种 预测 ， 所 以 我 们 应 该 看 懂 以 
s sin, ¿DA 
tibble(x = "e") %>% 
add_predictions(mod2) 


#> Error in model.frame.default(Terms, newdata, na.action = 
办 > na.action, xlev = object$xlevels): factor x has new level e 


17.4.2 ”交互 项 (连续 变量 与 分 类 变量 ) 


如 果 将 一 个 连续 变量 与 一 个 分 类 变量 组 合 使 用 ,会 是 什么 情况 ? sin 数据 集中 包含 了 一 个 
分 类 预测 变量 和 一 个 连续 预测 变量 ， 我 们 可 以 使 用 一 张 简单 的 图 来 表示 它们 : 











ggplot(sim3, aes(x1, y)) + 
geom_point(aes(color = x2)) 
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你 可 以 使 用 两 种 模型 来 拟 合 这 份 数据 : 


mod1 <- lm(y ~ x1 + x2, data = sim3) 
mod2 <- lm(y ~ x1 * x2, data = sim3) 


如 果 使 用 + 添加 变量 ， 那 么 模型 会 独立 地 估计 每 个 变量 的 效果 ， 不 考虑 其 他 变量 。 如 果 使 用 

*， 那 么 拟 合 的 就 是 所 谓 的 交互 项 。 例 如 ，y ~ xí * x2 会 转换 为 y = a_0 + a_1 * x1 + a_2 * 

x2 + a_12 * xl * x2。 注 意 ， 只 要 使 用 了 *， 交 互 项 及 其 各 个 组 成 部 分 就 都 要 包括 在 模型 中 。 

要 想 对 这 样 的 模型 进行 可 视 化 ， 需 要 两 种 新 技巧 。 

。 因为 有 两 个 预测 变量 ， 所 以 我 们 需要 将 这 两 个 变量 都 传 给 data_grid() 函数 。 这 个 函数 
会 找 出 xi 和 x2 中 的 所 有 唯一 值 ， 并 生成 所 有 组 合 。 

。 要 想 为 以 上 的 两 个 模型 同时 生成 预测 ， 可 以 使 用 gather_predictions() 国 数 ， 它 可 
以 将 每 个 预测 作为 一 行 加 入 数据 框 。 与 gather_predictions() 互补 的 函数 是 spread_ 
predictions()， 后 者 可 以 将 每 个 预测 作为 一 列 加 入 数据 框 。 

综 上 所 述 ， 可 以 得 到 : 

grid <- sim3 %>% 


data_grid(x1, x2) %>% 
gather_predictions(mod1, mod2) 
































grid 

#> # A tibble: 80 x 4 

#> model xi x2 pred 
#> <Chr> <ints <fetr> <dbl> 
办 > 1 mod1 a 1.67 
#> 2 modi 1 b 4:56 
#> 3 modi 1 c 6.48 
#> 4 modi 1 d 4.03 
#> 5 modi 2 a 1.48 
#> 6 modl 2 b: -4:37 
办 > # ... with 74 more rows 
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我 们 可 以 使 用 分 面 技术 将 两 个 模型 的 可 视 化 结果 放 在 一 张 图 中 : 


ggplot(sim3, aes(x1, y, color = x2)) + 
geom point() + 
geom line(data = grid, aes(y = pred)) + 
facet wrap(~ model) 


mod1 mod2 


A 
x2 
=> | 
> æ b 
g= 
c 
d 
0- 





' ' ' ' ' ' ' ' 
2.5 5.0 7.5 10.0 2.5 5.0 7.5 10.0 


注意 ， 在 使 用 + 的 模型 中 ， 每 条 直线 都 具有 同样 的 斜率 ， 但 截 距 不 同 。 在 使 用 * 的 模型 
中 ， 每 条 直线 的 斜率 和 截 距 都 不 相同 。 


对 于 这 份 数据 来 说 ， 哪 种 模型 更 好 呢 ? 我 们 可 以 检查 一 下 残 差 。 这 里 我 们 使 用 了 模型 和 x2 
变量 来 进行 分 面 ， 因 为 这 样 更 容易 看 到 每 个 组 中 的 模式 ， 
sim3 <- sim3 %>% 
gather_residuals(mod1, mod2) 


ggplot(sim3, aes(x1, resid, color = x2)) + 
geom point() + 
facet_grid(model ~ x2) 
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mod2 的 残 差 中 几乎 看 不 到 明显 的 模式 。mod1 的 残 差 则 表明 这 个 模型 在 b 分 类 中 明显 漏 掉 了 
某 种 模式 ， 而 在 < 和 d 分 类 中 ， 虽 然 不 明显 ， 但 还 是 存在 某 种 模式 的 。 你 应 该 很 想 知道 ， 
s I mod1 还 是 mod2 更 好 。 确 实 有 这 种 方法 ， 但 需要 强大 的 数学 背 

， 而 且 我 们 现在 还 不 用 关心 这 个 问题 。 现 在 我 们 应 该 关心 的 是 定性 评估 模型 能 否 捕 绪 我 
ie 或 兴趣 的 模式 的 方法 。 


17.4.3 ”交互 项 〈 两 个 连续 变量 ) 


以 下 模型 和 上 一 节 中 的 基本 相同 ， 只 是 包括 了 两 个 连续 变量 。 前 几 个 步骤 几乎 和 前 面 的 示 
例 完全 一 样 : 


mod1 <- lm(y ~ x1 + x2, data 
mod2 <- lm(y ~ x1 * x2, data 
grid <- sim4 %>% 
data_grid( 
x1 = seq_range(x1, 5), 
x2 = seq_range(x2, 5) 
) %>% 
gather_predictions(mod1, mod2) 
grid 
#> # A tibble: 50 x 4 
#> model x1 x2 pred 
#> <chr> <dbl> <dbl> <dbl> 





sim4) 
sim4) 


#> 1 modi -1.0 -1.0 0.996 
#> 2 modi -1.0 -0.5 -0.395 
#> 3 modi -1.0 0.0 -1.786 
#> 4 modi -1.0 05 3177 
#> 5 modi -1.0 1.0 -4.569 
#> 6 modi -0.5 -1.0 1.907 
办 > # ... with 44 more rows 


注意 ， 我 们 在 data grid() 国 数 中 使 用 了 seq_range() 函数 。 这 一 次 我 们 不 使 用 x 变量 的 所 
有 唯一 值 ， 而 是 使 用 x 变量 最 小 值 和 最 大 值 之 间 间 隔 相 等 的 5 个 值 来 生成 网 格 。 a 
技术 不 是 特别 重要 ， 但 通常 还 是 有 用 的 。seq_range() 还 有 其 他 3 个 有 用 的 参数 。 


° pretty = TRUE 会 生成 一 个 “漂亮 的 ”序列 ， 也 就 是 说， 让 我 们 看 起 来 比较 舒服 的 序列 。 
如 果 想 要 生成 输出 表格 的 话 ，3i 这 个 参数 是 很 有 用 的 : 


seq_range(c(0.0123, 0.923423), n = 5) 

#> [1] 0.0123 0.2401 0.4679 0.6956 0.9234 
seq_range(c(0.0123, 0.923423), n = 5, pretty = TRUE) 
#> [1] 0.0 0.2 0.4 0.6 0.8 1.0 


。 trim = 0.1 会 截断 10% 的 尾部 值 。 如 果 变 量具 有 长 尾 分 布 ， 而 你 希望 尽量 生成 中 心 附 
近 的 值 ， 那 么 就 可 以 使 用 这 个 参数 : 


x1 <- rcauchy(100) 

seq_range(x1, n = 5) 

#> [1] -115.9 -83.5 -51.2 -18.8 13.5 
seq_range(x1, n = 5, trim = 0.10) 

#> [1] -13.84 -8.71 -3.58 1.55 6.68 
seq_range(x1, n = 5, trim = 0.25) 
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#> [1] -2.1735 -1.0594 0.0547 1.1687 2.2828 
seq_range(x1, n = 5, trim = 0.50) 
#> [1] -0.725 -0.268 0.189 0.647 1.104 


° expand = 0.1 从 某 种 程度 上 来 说 是 trim() 的 反 函 数 ， 它 可 以 将 取 值 范围 扩大 10%: 


x2 <- €(0, 1) 

seq_range(x2, n = 5) 

#> [1] 0.00 0.25 0.50 0.75 1.00 
seq_range(x2, n = 5, expand = 0.10) 

#> [1] -0.050 0.225 0.500 0.775 1.050 
seq_range(x2, n = 5, expand = 0.25) 

#> [1] -0.125 0.188 0.500 0.812 1.125 
seq_range(x2, n = 5, expand = 0.50) 

#> [1] -0.250 0.125 0.500 0.875 1.250 


接 下 来 我 们 试 着 对 模型 进行 可 视 化 。 因 为 有 两 个 连续 型 预测 变量 ， 所 以 我 们 可 以 将 模型 想 
象 为 一 个 三 维 表面 。 可 以 使 用 geom_tile() 国 数 将 其 显示 出 来 : 
ggplot(grid, aes(x1, x2)) + 


geom tile(aes(fill = pred)) + 
facet wrap(~ model) 


mod1 mod2 





-1.0 


x1 
观察 这 两 张 图 ， 我 们 看 不 出 这 两 个 模型 有 什么 明显 区 别 。 但 这 是 一 种 错觉 ， 因 为 我 们 的 眼 
睛 和 大 脑 不 擅长 精确 分 辨 颜色 的 深浅 。 我 们 不 能 从 上 面 查 看 这 个 表面 ， 而 应 该 分 别 从 x1 
和 x2 的 角度 来 查看 ， 并 表示 出 多 个 切面 : 


ggplot(grid, aes(x1, pred, color = x2, group = x2)) + 
geom_line() + 
facet_wrap(~ model) 
ggplot(grid, aes(x2, pred, color 
geom_line() + 
facet_wrap(~ model) 


lI 


x1, group = x1)) + 
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这 说 明 两 个 连续 型 变量 的 交互 项 的 作用 方式 与 一 个 分 类 变量 和 一 个 连续 变量 的 交互 项 基本 
相同 。 交 互 项 说 明了 两 个 变量 是 相互 影响 的 ， 如 果 要 预测 y 值 ， 那 么 必须 同时 考虑 xd 的 
值 和 x2 的 值 。 


由 上 可 知 ， 即 使 只 有 两 个 连续 型 变量 ， 要 想得到 良好 的 可 视 化 结果 也 是 非常 困难 的 。 但 这 
也 是 合乎 情理 的 ， 对 于 3 个 或 更 多 变量 同时 进行 的 交互 作用 ， 我 们 更 不 能 指望 可 以 轻松 理 
解 了 。 但 再 次 让 人 聊 以 自慰 的 是 ， 我 们 现在 只 是 使 用 模型 进行 数据 探索 ， 以 后 还 可 以 逐步 
完善 这 个 模型 。 现 在 的 模型 不 一 定 要 很 完美 ， 只 要 能 帮助 我 们 更 好 地 认识 数据 即 可 。 


我 们 用 了 一 点 时 间 来 检查 残 差 ， 看 看 能 否 证 明 mod2 的 效果 比 modi 更 好 。 结 果 是 mod2 的 效 
果 确 实 好 一 点 ， 但 真 的 只 是 一 点 。 在 后 面 的 练习 中 ， 我 们 还 会 继续 研究 这 个 问题 。 


17.4.4 变量 转换 


还 可 以 在 模型 公式 中 进行 变量 转换 。 例 如 ，Log(y) ~ sqrt(x1) + x2 可 以 转换 为 Log(y) = 
a_1 + a 2 * sqrt(x1) + a_3 * x2。 如 果 想 要 使 用 +、*、^ 或 - 进行 变量 转换 ， 那 么 就 应 
该 使 用 I() 对 其 进行 包装 ， 以 便 及 在 处 理 时 不 将 它 当 作 模 型 定义 的 一 部 分 。 例 如 ，y ~ x + 
I(x ^ 2) 会 转换 为 y = al1+a2x*x+a3x*Xx2。 如 果 忘 记 使 用 I()， 将 公式 写成 y ~ 
x A 2 + x， 那 么 R 就 会 计算 y ~ x * x + x, x * x 表示 x 和 自己 的 交互 项 ， 实 际 上 就 是 
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x, R 会 自动 丢弃 宛 余 变量 ， 因 此 x + x 会 变 成 x， 这 样 y ~ x ^ 2 + x 定义 的 方程 就 是 y = 
a_1 + a_2 * x， 这 可 不 是 你 想 要 的 | 


再 次 强调 ， 如 果 搞 不 清 模 型 在 做 什么 ， 可 以 使 用 model_matrix() 函数 查看 mO 到 底 在 拟 
合 哪个 方程 : 


df <- tribble( 
y, ~X, 
£, D; 
fs. 2; 
2, 3 





model_matrix(df, y ~ x^2 + x) 
#> # A tibble: 3 x 2 


办 > `(Intercept)` x 
办 > <dbl> <dbl> 
c El 1 1 
g: 2 1 2 
#> 3 1 3 


model_matrix(df, y ~ I(x^2) + x) 
#> # À tibbles 3 * 3 


#> “(Intercept)” `T(xA2)° x 
办 > <dbl> <dbl> <dbl> 
#> 1 1 1 1 
#> 2 7 4 2 
#> 3 T 9 3 

















变量 转换 非常 有 用 ， 因 为 你 可 以 使 用 它们 来 近似 表示 非 线 性 函数 。 如 果 学 过 微 积 分 ， 那 么 你 

就 应 该 知道 泰勒 定理 ， 它 表明 任何 平 请 函数 都 可 以 近似 为 无 限 个 多 项 式 之 和 。 这 说 明 通 过 拟 

合 y=al+t+a2*x+a3*x^2+a4* x^3 这 样 的 方程 ,我们 可 以 使 用 线性 函数 任意 副 

近 一 个 平 背 函数 。 因 为 手动 输入 这 个 方程 太 无 聊 了 ， 所 以 R 提供 了 一 个 辅助 函数 poly(): 
model_matrix(df, y ~ poly(x, 2)) 


#> # A tibble: 3 x 3 
#> `(Inteëercept)` `poly(x, 2)4`" `poly(x, 2)2` 











#> <dbl> <dbl> <dbl> 
#> 1 1 -7.07e-01 0.408 
#2 1 -7.85e-17 -0.816 
#> 3 1 7.07e-01 0.408 





但 使 用 poty() 国 数 时 有 一 个 很 大 的 问题 : 多 项 式 的 值 会 超出 数据 范围 ， 很 容易 接近 正 无 穷 或 
负 无 穷 。 更 安全 的 一 种 方式 是 使 用 自然 样 条 法 splines: :ns(): 


library(splines) 

model_matrix(df, y ~ ns(x, 2)) 

Ws # À bbles 3 %3 

#> ‘Intercept)™ “ns(xs 2)1" `ñs(x, 2)2° 





#> <dbl> <dbl> <dbl> 
#> 1 1 0.000 0.000 
#> 2 1 0.566 -0.211 
#> 3 1 0.344 0. 771 


我 们 看 一 下 近似 非 线 性 函数 时 的 情况 : 





sim5 <- tibble( 
x = seq(0, 3.5 * pi, length = 50), 
y = 4 * sin(x) + rnorm(length(x)) 
) 


ggplot(sim5, aes(x, y)) + 
geom_point() 
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我 们 使 用 这 份 数据 来 拟 合 5 个 模型 : 


mod1 <- lm(y ~ ns(x, 1), data = sim5) 
mod2 <- lm(y ~ ns(x, 2), data = sim5) 
mod3 <- lm(y ~ ns(x, 3), data = sim5) 
mod4 <- lm(y ~ ns(x, 4), data = sim5) 
mod5 <- lm(y ~ ns(x, 5), data = sim5) 


grid <- sim5 %>% 
data_grid(x = seq_range(x, n = 50, expand = 0.1)) %>% 
gather_predictions(mod1, mod2, mod3, mod4, mod5, .pred = "y") 


ggplot(sim5, aes(x, y)) + 
geom_point() + 
geom_line(data = grid, color = "red") + 
facet_wrap(- model) 
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注意 ， 当 使 用 模型 在 数据 范围 外 进行 推断 时 ， 效 果 明 显 非 常 差 。 这 是 使 用 多 项 式 近 似 函 数 
的 一 个 缺点 。 但 这 是 所 有 模型 都 具有 的 一 个 实际 问题 : 当 对 未 知 数据 进行 外 推 时 ， 模 型 无 
法 确保 结果 的 真实 性 。 你 必须 依靠 相关 的 科学 理论 。 




















17.4.5 ”练习 

(1) 如 果 使 用 没有 截 距 的 模型 对 sim 数据 集 再 次 进行 分 析 ， 会 是 什么 情况 ?模型 方程 会 发 
生 什 么 变化 ?预测 值 呢 ? 

(2) 使 用 model_matrix() 研究 一 下 我 们 用 sim3 和 sim4 拟 合 模型 时 生成 的 方程 。 为 什么 * 是 
交互 项 的 一 种 非常 好 的 简单 表示 ? 

(3) 使 用 前 文中 的 基本 规则 ， 将 以 下 两 个 模型 中 的 公式 转换 为 方程 。( 提 示 : 先 将 分 类 变量 
转换 为 0~1 变量 。) 


mod1 <- lm(y ~ x1 + x2, data 
mod2 <- lm(y ~ x1 * x2, data 


(4) 对 于 sim4 2248 4, modi 和 mod2 哪 一 个 更 好 ? 我 们 认为 mod2 在 消除 模式 方面 做 得 稍 好 
一 些 ， 但 好 得 很 有 限 。 你 能 否 用 一 张 图 来 支持 该 结论 ? 


17.5 缺失 值 


对 于 变量 间 的 关系 ， 缺 失 值 显然 不 能 传达 出 任何 信息 ， 因 此 建 模 函数 会 丢弃 包含 缺失 值 的 
所 有 行 。 默 认 情 况 下 ，R 会 不 声 不 响 地 丢弃 这 种 数据 ， 但 是 options(na.action = na.warn) 
(我 们 在 准备 工作 中 运行 过 这 行 代码 ) 可 以 确保 我 们 收 到 一 条 警告 信息 : 

df <- tribble( 





sim3) 
sim3) 






































mod <- lm(y ~ x, data = df) 
#> Warning: Dropping 2 rows with missing values 


要 想 阻 止 错误 信息 ， 可 以 设置 na.action = na.exclude: 
mod <- lm(y ~ x, data = df, na.action = na.exclude) 
通过 nobs() 函数 ， 你 可 以 知道 模型 实际 使 用 了 多 少 个 观测 : 


nobs(mod) 
#> [1] 3 
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17.6 ”其 他 模型 族 


本 章 的 重点 完全 在 于 线性 模型 ， 其 假设 变量 间 的 关系 是 y = a1* xi+a2*x2++ 
an * xn 的 形式 。 线 性 模型 还 假设 残 差 服从 正 态 分 布 ， 我们 之 前 没有 讲 过 这 一 点 。 很 多 模 
型 族 以 各 种 有 趣 的 方式 扩展 了 线性 模型 ， 其 中 包括 以 下 各 种 模型 。 

。 广义 线性 模型 ， 如 stats::gtm() 函数 。 线 性 模型 假设 响应 变量 是 连续 的 ， 并 且 误 差 服 
从 正 态 分 布 。 广 义 线性 模型 将 线性 模型 扩展 为 可 以 包括 非 连续 型 的 响应 变量 (如 二 值 数 
据 或 计数 )。 它 们 基于 似 然 这 一 统计 思想 ， 通 过 定义 距离 的 度量 来 工作 。 

。 广义 可 加 模型 ， 如 mgcv::gam() 函数 。 该 模型 可 以 扩展 广义 线性 模型 ， 使 其 包含 任意 世 
平滑 函数 。 这 意味 着 ， 你 可 以 写 出 y ~ s(x) 这 样 的 公式 ， 它 可 以 转化 为 y = f(x) 这 样 
的 方程 ， 并 使 用 gam( ) 函数 估计 出 方程 的 形式 〈 由 于 某 些 平滑 性 条 件 的 限制 ， 这 个 问题 
还 是 比较 容易 解决 的 )。 
带 有 惩罚 项 的 线性 模型 ， 如 glmnet: :glmnet() 国 数 。 该 模型 向 距离 添加 一 个 惩罚 项 ， 以 
惩罚 复杂 的 模型 (使 用 参数 向 量 和 原点 间 的 距离 来 定义 )。 在 扩展 到 来 自 同一 总 体 的 新 
数据 集 时 ， 这 种 方法 生成 的 模型 更 容易 取得 良好 的 效果 。 

。 健壮 线性 模型 ， 如 MASS:rim()。 该 模型 对 过 远 的 距离 进行 调整 ， 以 降低 远 距 离 的 权重 。 
这 样 一 来 ， 模 型 对 异常 值 就 不 会 太 敏 感 ， 但 代价 是 当 没 有 异常 值 时 ， 效 果 不 是 特别 好 。 

。 树 模型 ， 如 rpart: :rpart()。 该 模型 使 用 与 线性 模型 完全 不 同 的 方法 来 解决 问题 。 树 模 
型 拟 合 一 个 分 段 常数 模型 ， 将 数据 逐渐 划分 为 越 来 越 小 的 多 个 部 分 。 树 模型 本 身 的 效率 
不 是 特别 高 ,但 如 果 使 用 随机 森林 (random forest, 如 randomForest: :randomForest() 国 数 ) 
或 梯度 提升 机 (gradient boosting machine, ZH xgboost: :xgboost() 函数 ) 这 样 的 模型 将 
它们 聚合 起 来 使 用 时 ， 其 功能 是 非常 强大 的 。 


从 编程 的 角度 来 看 ， 这 些 模 型 的 工作 原理 非常 相似 。 一 旦 掌握 了 线性 模型 ， 你 就 会 发 现 很 
容易 掌握 其 他 模型 族 的 运行 机 制 。 要 想 成 为 一 名 熟练 的 建 模 专家 ， 既 要 掌握 通用 原则 ， 又 
要 精通 大 量 建 模 技术 。 现 在 你 已 经 学 习 了 一 些 通用 工具 和 一 种 有 用 的 模型 ， 接 下 来 就 可 以 
通过 其 他 资源 学 习 更 多 种 类 的 模型 了 。 
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第 18 章 





模型 构建 


18.1 简介 














我 们 在 上 一 章 中 学 习 了 线性 模型 的 工作 原理 








E， 还 学 习 了 一 些 基本 工具 来 理解 模型 如 何 帮 助 





我 们 解释 数据 。 上 一 章 主 要 使 用 模拟 数据 集 来 帮助 我 们 学 习 模 型 是 如 何 工作 的 。 本 章 则 关 
注 真 实数 据 ， 介 绍 如 何 循序 新 进 地 建立 模型 以 帮助 我 们 理解 数据 。 

我 们 将 利用 这 样 一 个 共识 : 模型 可 以 将 数据 分 成 模式 与 残 差 这 两 个 部 分 。 我 们 会 先 利用 数 
据 可 视 化 找 出 模式 ， 然 后 通过 模型 更 加 有 具体 而 精确 地 提取 出 模式 。 之 后 会 重复 这 一 过 程 ， 





只 是 将 原来 的 响应 变量 替换 为 模型 的 残 差 。 

















我 们 的 目标 是 将 数据 与 头脑 中 的 隐 式 知识 转换 


为 量化 模型 中 的 显 式 知识 。 这 样 更 容易 将 知识 应 用 于 新 的 领域 ， 也 更 容易 为 他 人 所 使 用 。 


对 于 特别 大 和 特别 复杂 的 数据 集 ， 这 将 是 一 项 紫 重 的 工作 。 当 然 还 有 其 他 方法 ， 即 重点 在 
于 模型 预测 能 力 的 机 器 学 习 方法 。 这 些 方法 往往 会 产生 黑 盒 效应 : 模型 的 预测 效果 非常 


人 








好 ， 但 你 无 法 解释 。 这 些 方法 确实 很 合理 ， 





但 很 难 将 你 的 实际 知识 应 用 于 模型 。 因 此 ， 从 


长 期 来 看 ， 如 果 基 本 情况 发 生 了 变化 ， 我 们 就 很 难 确定 模型 是 否 还 会 奏效 。 对 于 多 数 实际 
模型 ， 我 们 希望 你 能 将 这 种 方法 和 一 些 更 经 典 的 自动 化 方法 结合 起 来 使 用 。 

适可而止 是 很 困难 的 。 你 应 该 知道 模型 什么 时 候 是 恰到好处 的 ， 什 么 时 候 是 画蛇添足 、 过 
犹 不 及 的 。 我 们 非常 欣赏 reddit 用 户 Broseidon241 说 的 以 下 这 段 话 。 








很 久之 前 的 艺术 课 上 ， 老 师 告诉 我 :“ 














艺术 家 应 该 知道 何 时 完成 作品 。 如 果 不 能 


做 得 更 好 ， 那 就 结束 它 。 如 果 不 喜 欢 它 ， 那 就 从 头 再 来 。 否 则 ， 就 去 做 别 的 事情 


吧 。 在 后 来 的 生活 中 ， 我 还 听 到 了 这 


铅 话 :“ 坏 裁缝 会 犯 很 多 错误 ， 好 裁缝 会 努 


力 纠 正 错误 ， 而 优秀 的 裁缝 则 从 来 不 怕 将 有 问题 的 衣服 扔 挤 ， 重 新 开始 。” 
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Broseidon241 


准备 工作 
我 们 使 用 的 工具 与 上 一 章 中 的 相同 ， 但 要 加 入 几 个 实际 数据 集 : ggplot2 包 中 的 diamonds 


和 nycflights13 包 中 的 flights。 我 们 还 需要 lubridate 包 ， 以 处 理 flights 数据 集中 的 日 期 
和 时 间 数 据 。 


library(tidyverse) 
library(modelr) 
options(na.action = na.warn) 


library(nycflights13) 
library(lubridate) 


18.2 为 什么 质量 差 的 钻石 更 贵 


在 前 面 的 章节 中 ， 我 们 已 经 发 现 了 钻石 质量 与 价格 间 这 种 令 人 惊讶 的 关系 : 质量 差 的 钻石 
( 切 工 差 、 颜 色差 、 纯 净 度 低 ) 具有 更 高 的 价格 : 
ggplot(diamonds, aes(cut, price)) + geom boxplot() 


ggplot(diamonds, aes(color, price)) + geom_ boxplot() 
ggplot(diamonds, aes(clarity, price)) + geom boxplot() 
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注意 ， 最 差 的 钻石 颜色 是 J〈 微 黄 ) ， 最 差 的 纯净 度 是 II (肉眼 可 见 内 含 物 )。 


18.2.1 价格 与 重量 
质量 差 的 钻石 似乎 价格 更 高 ， 造 成 这 一 现象 的 原因 是 一 个 重要 的 混淆 变量 : 钻石 的 重量 
(carat)。 重 量 是 确定 钻石 价格 的 单一 因素 中 最 重要 的 一 个 ， 而 质量 差 的 钻石 往往 更 重 一 些 ; 


ggplot(diamonds, aes(carat, price)) + 
geom_hex(bins = 50) 
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通过 拟 合 一 个 模型 来 分 离 出 carat 变量 的 作用 ， 我 们 可 以 更 容易 看 到 钻石 的 其 他 特性 对 
price 的 有 影响。 但是， 我 们 需要 先 对 钻石 数据 集 进行 一 些 调整 ， 以 便 其 更 容易 处 理 。 

(1) 重点 关注 小 于 2.5 克拉 的 那些 钻石 〈 全 部 数据 的 99.7%)。 

(2) 对 重量 和 价格 变量 进行 对 数 转换 。 


diamonds2 <- diamonds %>% 
filter(carat <= 2.5) %>% 
mutate(lprice = log2(price), lcarat = log2(carat)) 


这 两 个 调整 可 以 让 我 们 更 轻松 地 看 到 carat 和 price 之 间 的 关系 : 
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ggplot(diamonds2, aes(lcarat, lprice)) + 
geom_hex(bins = 50) 


Iprice 





Icarat 
对 数 转 换 在 这 个 示例 中 非常 有 用 ， 因 为 它 可 以 让 模式 变 为 线性 的 ， 而 线性 模式 是 最 容易 处 
理 的 。 现 在 我 们 进行 下 一 步 ， 从 数据 中 去 除 这 种 强烈 的 线性 模式 。 我 们 通过 拟 合 一 个 模型 


让 这 种 模式 成 为 显 式 的 : 
mod_diamond <- lm(lprice ~ lcarat, data = diamonds2) 


接着 我 们 检查 模型 ， 看 看 它 能 够 反映 出 数据 中 的 哪些 信息 。 注 意 ， 因 为 我 们 对 预测 值 进行 
了 反 向 变换 ， 还 原 了 对 数 转换 ， 所 以 可 以 将 预测 值 覆 盖 在 原始 数据 上 : 


grid <- diamonds2 %>% 
data_grid(carat = seq_range(carat, 20)) %>% 
mutate(Lcarat = log2(carat)) %>% 
add_predictions(mod_diamond, "lprice") %>% 
mutate(price = 2 ^ lprice) 

















ggplot(diamonds2, aes(carat, price)) + 
geom_hex(bins = 50) + 
geom_line(data = grid, color = "red", size = 1) 
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这 张 图 可 以 告诉 我 们 关于 这 份 数据 的 一 些 有 趣 信息 。 如 果 我 们 相信 这 个 模型 ， 那 么 大 钻石 
要 比 预 料 中 便宜 得 多 。 这 可 能 是 因为 数据 集中 没有 价格 超过 $19 000 的 钻石 。 


现在 我 们 可 以 检查 一 下 残 差 ， 它 可 以 用 来 验证 我 们 是 否 成 功 移 除 了 强烈 的 线性 模式 : 
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diamonds2 <- diamonds2 %>% 
add_residuals(mod_diamond, "lresid") 


ggplot(diamonds2, aes(lcarat, lresid)) + 
geom_hex(bins = 50) 
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重要 的 是 ， 我 们 现在 可 以 使 用 残 差 代替 price 来 重新 绘图 了 : 





ggplot(diamonds2, aes(cut, lresid)) + geom_boxplot() 
ggplot(diamonds2, aes(color, lresid)) + geom boxplot() 
ggplot(diamonds2, aes(clarity, lresid)) + geom boxplot() 
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i 当 钻石 的 质量 下 降 时 ， 其 相应 价格 也 随 之 下 降 。 为 了 
解释 y 轴 ， 我 们 需要 思考 一 下 残 差 的 意义 及 其 使 用 的 标 度 。 残 差 为 -1 表示 Lprice 比 仅 使 
用 重量 进 和 ` 个 单位 。2” 就 是 112， 因 此 值 为 -1 的 点 的 价格 为 预计 价格 
的 一 半 ， 残 差 为 1 时 ,价格 则 是 预计 价格 的 2 倍 。 


18.2.2 ”一 个 更 复杂 的 模型 


如 果 愿 意 的 话 ， 我 们 可 以 继续 构建 模型 ， 用 模型 明确 表示 观察 到 的 效果 。 例 如 ， 我 们 可 以 
在 模型 中 包括 color, cut 和 clarity 变量 ， 以 将 这 3 个 分 类 变量 的 效果 明确 表示 出 来 : 
mod_diamond2 <- lm( 
lprice ~ lcarat + color + cut + clarity, 


data = diamonds2 


) 


现在 模型 中 包括 了 4 个 预测 变量 ， 因 此 更 加 难以 进行 可 视 化 。 好 在 这 些 变量 还 是 彼此 独立 
的 ， 这 意味 着 我 们 可 以 在 4 张 图 中 分 别 绘制 出 它们 。 为 了 让 这 个 过 程 更 简单 一 些 ， 我 们 在 
data_grid() 函数 中 使 用 .model 参数 : 

grid <- diamonds2 %>% 


data_grid(cut, .model = mod_diamond2) %>% 
add_predictions(mod_diamond2) 



































grid 

办 > # A tibble: 5 x 5 

#> cut lcarat color clarity pred 
#> <ord> <dbl> <chr> <chr> <dbl> 
#> 1 Fair -0.515 G SIT 31.0 
#> 2 Good -0.515 G SII- 11,1 
#> 3 Very Good -0.515 G STI 34.2 
#> 4 Premium -0.515 G SII 11,2 
#> 5 Ideal -0.515 G STI 11:2 


ggplot(grid, aes(cut, pred)) + 
geom_point() 
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如 果 模 型 需要 你 还 没有 明确 提供 的 变量 ，data_grid() 函数 会 自动 使 用 “典型 ” 值 来 填充 














它们 。 对 于 连续 变量 ， 模 型 使 用 中 位 数 ， 对 于 分 类 变量 ， 模 型 使 用 最 常见 的 值 (或 多 个 
值 ， 如 果 有 同样 数量 的 多 个 值 的 话 ) : 


diamonds2 <- diamonds2 %>% 
add_residuals(mod_diamond2, "lresid2") 














ggplot(diamonds2, aes(lcarat, lresid2)) + 
geom_hex(bins = 50) 
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这 张 图 说 明 一 些 钻石 有 非常 大 的 残 差 。 记 住 ， 残 差 为 2 表示 钻石 的 价格 是 预计 价格 的 4 
倍 。 通 常 还 应 该 检查 一 下 异常 值 : 


diamonds2 %>% 
fulter(abs(lresid2) > 1) %>% 
add_predictions(mod_diamond2) %>% 
mutate(pred = round(2 ^ pred)) %>% 
select(price, pred, carat:table, x:z) %>% 
arrange(price) 

#> # A tibble: 16 x 11 





#> price pred carat cut color clarity depth table x 
#> <int> <dbl> <dbl> <ord> <ord> <ord> <dbl> <dbl> <dbl> 


#> 1 1013 264 0.25 Fatr F SI2 54:4 64 4.30 
#> 2 1186 284 0.25 Premium G SI2 59.0 60 -5533 
#> 3 1186 284 0.25 Premium G SI2 58.8 60 5.33 
#> 4 1262 2644 1.03 Fair E I1 78.2 54 5.72 
#> 5 1415 639 0:35 Fair G VS2 65.9 54 5.57 
#> 6 1415 639 0.35 Fair G VS2 65:9 54 5.57 
#> # ... with 10 more rows, and 2 more variables: y <dbl>, 


#> # z <dbl> 


这 个 结果 没什么 大 价值 ， 但 或 许 我 们 可 以 花 点 时 间 思 考 一 下 出 现 异常 值 是 因为 模型 有 问 
题 ， 还 是 数据 中 有 错误 。 如 果 是 数据 中 的 错误 ， 那 么 我 们 就 有 机 会 买 到 那些 错误 定 了 低 价 
的 钻石 。 


18.2.3 ”练习 
(1) tcarat 和 Lprice 的 关系 图 中 有 一 些 垂直 的 亮 条 。 它 们 表示 什么 ? 


(2) 如 果 log(price) = a_0 + a_1 * log(carat)， 这 能 反映 出 price FA carat 间 的 何 种 
关系 ? 


(3) 提取 残 差 特别 大 和 特别 小 的 钻石 数据 ， 这 些 钻 石 有 什么 特异 之 处 ? 它们 是 特别 好 、 特 别 
差 ， 还 是 定价 错误 ? 

(4) 最 终 模型 nod_diamonds2 是 预测 钻石 价格 的 优秀 模型 吗 ? 如果 想 要 买 钻 石 ， 你 会 信任 它 
给 出 的 价格 吗 ? 


18.3 哪些 因素 影响 了 每 日 航班 数量 


我 们 使 用 同样 的 流程 来 处 理 乍 看 上 去 更 为 简单 的 一 个 数据 集 每 天 从 纽约 市 出 发 的 航班 数 
量 。 这 是 一 个 相当 小 的 数据 集 ， 只 有 365 行 和 2 列 ， 而 且 我 们 也 不 准备 充分 实现 最 终 模 
型 。 但 正如 你 将 看 到 的 ， 实 现 模 型 的 一 系列 步骤 会 帮助 我 们 更 加 透彻 地 理解 数据 。 首 先 ， 
我 们 需要 计算 每 天 出 发 的 航班 数量 ， 并 使 用 ggplot2 进行 可 视 化 : 
daily <- flights %>% 
mutate(date = make_date(year, month, day)) %>% 


group_by(date) %>% 
summarize(n = n()) 

















daily 

#> # A tibble: 365 x 2 
#> date n 
#> <date> <int> 


#> 1 2013-01-01 842 
#> 2 2013-01-02 943 
#> 3 2013-01-03 914 
#> 4 2013-01-04 915 
#> 5 2013-01-05 720 
#> 6 2013-01-06 832 
#> # ... with 359 more rows 
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ggplot(daily, aes(date, n)) + 
geom_line() 


1000 - 


700- 


Jan 2013 Apr 2013 Jul 2013 Oct 2013 Jan 2014 
date 


18.3.1 一 周 中 的 每 一 天 
里 解 长 期 趋势 是 非常 困难 的 ， 因 为 数据 中 存在 着 强烈 的 周 内 效应 ， 它 严重 影响 了 数据 中 的 
微妙 模式 。 我 们 先 检查 一 下 航班 数量 在 一 周 中 的 每 一 天 的 分 布 : 
daily <- daily %>% 
mutate(wday = wday(date, label = TRUE)) 


ggplot(daily, aes(wday, n)) + 
geom_boxplot() 
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周末 的 航班 数量 更 少 ， 因 为 多 数 行程 都 是 公务 出 差 。 这 种 效应 在 星期 六 体现 的 更 加 明显 : 
有 时 为 了 星期 一 的 会 议 ， 人 们 或 许 会 在 星期 日 出 发 ， 但 很 少 有 人 会 在 星期 六 出 发 ， 因 为 这 
天 我 们 更 愿意 留 在 家 里 陪伴 家 人 。 


去 除 这 种 强烈 模式 的 一 种 方法 是 使 用 模型 。 首 先 ， 我 们 拟 合 这 个 模型 ， 并 将 预测 值 覆 盖 在 
原始 数据 上 : 
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mod <- lm(n ~ wday, data = daily) 
grid <- daily %>% 
data_grid(wday) %>% 
add_predictions(mod, "n") 
ggplot(daily, aes(wday, n)) + 


geom_boxplot() + 
geom_point(data = grid, color = "red", size = 4) 
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然后 计算 残 差 ， 并 对 其 进行 可 视 化 表示 : 


daily <- daily %>% 
add_residuals(mod) 

daily %>% 
ggplot(aes(date, resid)) + 
geom ref line(h = 0) + 
geom_line() 
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注意 y 轴 的 变化 : 现在 它 表 示 的 是 每 天 的 航班 数量 与 给 定 一 周 中 某 一 天 预期 航班 数量 间 的 


偏差 。 这 张 图 是 非常 有 用 的 ， 因 为 它 去 除了 大 部 分 周 内 效应 ， 我 们 可 以 从 剩余 的 信息 中 看 
出 一 些微 妙 的 模式 。 

















模型 构建 | 275 


。 我 们 的 模型 似乎 从 6 月 份 开始 失效 了 : 你 可 以 看 到 ， 此 时 数据 中 仍然 存在 一 种 强烈 的 、 
有 规律 的 模式 ， 这 是 我 们 没有 捕获 到 的 。 我 们 再 绘制 一 张 图 ， 将 一 周 中 的 每 一 天 都 用 
条 折线 表示 出 来 ， 这 样 可 以 看 得 更 清楚 一 些 : 

ggplot(daily, aes(date, resid, color = wday)) + 


geom_ref_line(h = 0) + 
geom_line() 
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我 们 的 模型 没有 精确 地 预测 出 星期 六 的 航班 数量 : 夏季 的 实际 航班 数量 比 我 们 预计 的 要 
多 ， 秋季 则 比 我 们 预计 的 要 少 。 下 一 市 将 介绍 如 何 更 好 地 捕获 这 种 模式 。 


° 有 几 天 的 航班 数量 远 远 少 于 预期 ，; 


daily %>% 

filter(resid < -100) 
#> # A tibble: 11 x 4 
#> date n wday resid 
#> <date> <int> <ord> <dbl> 
#> 1 2013-01-01 842 Tues -109 
#> 2 2013-01-20 786 Sun -105 
#> 3 2013-05-26 729 Sun -162 
#> 4 2013-07-04 737 Thurs -229 
#> 5 2013-07-05 822 Fri -145 
#> 6 2013-09-01 718 Sun -173 
#> # ... with 5 more rows 


如 果 非 常熟 悉 美 国 的 公共 假期 ， 那 么 你 就 会 发 现 这 些 日 期 中 包括 新 年 、7 月 4 日、 感恩 
节 和 圣诞 节 。 还 有 一 些 其 他 日 期 没有 对 应 的 公共 假期 ， 我 们 会 在 后 面 的 练习 中 继续 讨论 
这 些 日 期 。 


。 从 整 年 来 看 ， 似 乎 有 某 种 更 平滑 的 长 期 趋势 。 我 们 可 以 使 用 geom_smooth() 函数 来 高 亮 
显示 这 种 趋势 : 


daily %>% 
ggplot(aes(date, resid)) + 
geom_ref_line(h = 0) + 
geom_line(color = "grey50") + 
geom_smooth(se = FALSE, span = 0.20) 

#> `geom_smooth()` using method = 'loess' 
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可 以 看 出 ，1 月 (和 12 月 ) 的 航班 比较 少 ， 而 夏季 (5-9 H) 的 航班 比较 多 。 不 能 对 这 
种 模式 进行 更 多 量化 处 理 ， 因 为 我 们 只 有 一 年 的 数据 。 但 是 ， 我 们 可 以 使 用 领域 知识 尽 
情 地 想象 各 种 可 能 的 解释 。 


18.3.2 ”季节 性 星期 六 效应 


我 们 先 解决 未 能 精确 预测 星期 六 航班 数量 的 问题 。 先 回 到 原始 数据 ， 关 注 星 期 六 的 航班 状 
况 ， 这 不 失 为 一 种 良好 的 做 法 : 


daily %>% 
filter(wday == "Sat") %>% 
ggplot(aes(date, n)) + 
geom_point() + 
geom_line() + 
scale_x_date( 
NULL, 
date_breaks 
date_labels 
) 
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(我 们 同时 使 用 了 点 和 折线 ， 这 样 可 以 更 清楚 地 表示 哪些 是 数据 ， 哪 些 是 插值 。) 

我 们 怀疑 这 种 模式 是 由 暑假 造成 的 : 很 多 人 夏季 出 去 度假 ， 而 假期 中 的 人 们 是 不 介意 在 星 
期 六 出 行 的 。 根 据 这 张 图 ， 我 们 可 以 猜想 暑假 是 从 6 月 初 到 8 月 末 ， 这 个 时 间 与 美国 的 学 
校 假期 非常 吻合 : 2013 年 的 咯 假 是 从 6 月 26 日 至 9 月 9 日 。 
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为 什么 春季 的 星期 六 航班 比 秋季 多 ? 我 们 询问 了 一 些 美 国 朋 友 ， 他 们 认为 之 所 以 较 少 在 秋 
季 安 排 全 家 度假 ， 是 因为 还 有 很 长 的 感恩 节 和 和 圣诞 节 假 期 。 虽 然 没 有 数据 证 明 这 种 说 法 的 
真实 性 ， 但 这 似乎 是 个 还 算 合理 的 解释 。 

我 们 创建 一 个 “学 期 ”变量 来 粗略 地 表示 学 校 的 3 个 学 期 ， 然 后 使 用 图 形 检查 一 下 这 样 做 
的 效果 : 


term <- function(date) { 











cut(date, 
breaks = ymd(20130101, 20130605, 20130825, 20140101), 
labels = c("spring", "summer", "fall") 
) 
} 


daily <- daily %>% 
mutate(term = term(date)) 


daily %>% 

filter(wday == "Sat") %>% 

ggplot(aes(date, n, color = term)) + 

geom_point(alpha = 1/3) + 

geom_line() + 

scale_x_date( 
NULL, 
date_breaks 
date_labels 

) 
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Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan 
(为 了 让 图 形 中 的 间隔 更 美观 ， 我 们 手动 调整 了 日 期 。 使 用 可 视 化 图 形 可 以 帮助 我 们 理解 
国 数 的 作用 ， 这 确实 是 一 种 强大 又 通用 的 技术 。) 
还 应 该 查看 这 个 新 变量 是 如 何 影响 一 周 中 其 他 各 天 的 : 


daily %>% 
ggplot(aes(wday, n, color = term)) + 
geom_boxplot() 
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看 上 去 不 同学 期 间 的 差别 还 是 非常 大 的 ， 因 此 应 该 拟 合 去 除了 每 学 期 周 内 效应 的 模型 。 





样 可 以 改进 模型 ， 但 效果 只 是 差强人意 : 


mod1 <- lm(n ~ wday, data = daily) 
mod2 <- lm(n ~ wday * term, data = daily) 


daily %>% 
gather_residuals(without_term 


mod1, with_term = mod2) %>% 


ggplot(aes(date, resid, color = model)) + 
geom_line(alpha = 0.75) 
100- 
0 一 
mode 
> > WA 
9 100 - with_term 
一 -一 without_ term 
-200 - 
-300- 
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date 





将 模型 预测 值 覆 盖 在 原始 数据 上 ， 我 们 就 可 以 看 出 问题 所 在 : 


grid <- daily %>% 
data_grid(wday, term) %>% 
add_predictions(mod2, "n") 


ggplot(daily, aes(wday, n)) + 
geom_ boxplot() + 
geom_point(data = grid, color = "red") + 
facet_ wrap(~ term) 


5 
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1000 - 


wday 
模型 寻找 的 是 平均 效应 ， 但 我 们 的 数据 中 有 大 量 数值 很 大 的 离 群 点 ， 因 此 平均 趋势 与 
典 型 值 之 间 的 差别 比较 大 。 如 果 想 要 改善 这 个 问题 ， 可 以 使 用 对 离 群 点 健壮 的 模型 : 


MASS::rtm()。 这 个 函数 可 以 天 大 减轻 高 群 点 对 配 型 估计 的 影响 ， 并 给 出 很 好 地 消除 了 周 内 
效应 的 一 个 模型 : 


mod3 <- MASS::rlm(n ~ wday * term, data = daily) 





daily %>% 
add_residuals(mod3, "resid") %>% 
ggplot(aes(date, resid)) + 
geom hline(yintercept = 0, size = 2, color = "white") + 
geom_line() 


100- 


-200- 
-300 - 


Jan 2013 Apr 2013 Jul 2013 Oct 2013 Jan 2014 
date 


现在 更 容易 看 出 长 期 趋势 ， 以 及 正 负 离 群 点 了 。 


18.3.3 ”计算 出 的 变量 


如 果 正 在 试验 多 个 模型 和 多 种 可 视 化 方法 ， 那 么 你 可 以 将 创建 变量 的 所 有 代码 打包 放 在 一 
个 国 数 中 。 这 是 一 种 非常 好 的 做 法 ， 可 以 防止 由 于 意外 而 在 不 同 的 地 方 执行 了 不 同 的 转 
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换 。 例 如 ， 我 们 可 以 使 用 以 下 代码 : 


compute_vars <- function(data) { 
data %>% 


mutate( 
term = term(date), 
wday = wday(date, label = TRUE) 


) 
J 


另 一 种 方法 是 直接 在 模型 公式 中 进行 转换 ; 


wday2 <- function(x) wday(x, label = TRUE) 
mod3 <- lm(n ~ wday2(date) * term(date), data = daily) 


每 种 方法 都 有 其 合理 性 。 如 有 果 想 对 工作 进行 检查 ， 或 者 想 对 工作 结果 进行 可 视 化 表示 ， 那 


么 你 就 应 该 明确 表示 变量 转换 。 谨 慎 使 用 返回 多 个 列 的 那些 转换 (比如 样 条 法 )。 
在 处 理 多 个 不 同 的 数据 集 ， 那 么 将 转换 放 在 模型 公式 中 可 以 使 得 工作 更 容易 一 些 ， 








时 的 模型 是 自 成 一 体 的 。 


18.3.4 年 度 时 间 : 另 一 种 方法 


如 果 正 
因为 这 


我 们 在 前 面 使 用 了 领域 知识 (美国 学 校 学 期 对 旅行 的 影响 ) 改进 模型 。 改 进 模型 的 另 一 种 
方法 是 赋予 数据 更 多 的 发 言 权 。 可 以 使 用 一 种 更 灵活 的 模型 来 捕获 我 们 所 关注 的 模式 。 简 
单 的 线性 趋势 已 经 无 法 汪 足 我 们 的 需要 了 ， 我 们 试 着 使 用 自然 样 条 法 拟 合 一 个 年 度 平 请 曲 











线 模型 : 


library(splines) 
mod <- MASS::rlm(n ~ wday * ns(date, 5), data = daily) 


daily %>% 
data_grid(wday, date = seq_range(date, n = 13)) %>% 
add_predictions(mod) %>% 
ggplot(aes(date, pred, color = wday)) + 
geom line() + 
geom_point() 


1000- 


wday 
900- TE — Sun 
-全 Mon 
— Tues 
—— Wed 
—=— Thurs 
— Fri 


— Sat 


' ' ' ' ' 
Jan 2013 Apr 2013 Jul 2013 Oct 2013 Jan 2014 
date 
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我 们 可 以 在 星期 六 航班 数量 中 看 到 一 种 强烈 的 模式 。 这 很 令 人 欣慰 ， 因 为 也 可 以 在 原始 数 
据 中 看 到 这 种 模式 。 通 过 不 同方 法 得 到 同样 的 信号 ， 是 一 种 很 好 的 迹象 。 











18.3.5 ”练习 


(1) 通 过 你 的 搜索 技能 进行 头脑 风暴 ， 解 释 为 什么 1 月 20 日 5 月 26 日 和 9 月 1 日 的 航班 
数量 比 预计 的 要 少 。( 提 示 : 它们 的 解释 相同 。) 如 何 能 够 将 这 些 日 期 推广 到 另 一 个 年 
度 ? 


(2) 以 下 具有 最 大 正 残 差 的 3 个 日 期 代表 什么 ?如 何 能 够 将 这 些 日 期 推广 到 另 一 个 年 度 ? 


daily %>% 
top_n(3, resid) 

办 > # A tibble: 3 x 5 

#> date n wday resid term 
办 > <date> <int> <ord> <dbl> <fctr> 
#> 1 2013-11-30 857 Sat 112.4 fall 
#> 2 2013-12-01 987 Sun 95.5 fall 
#> 3 2013-12-28 814 Sat 69.4 fall 


(3) 创建 一 个 新 变量 将 wday 变量 划分 为 几 个 学 期 ， 但 仅 对 星期 六 执行 这 个 操作 。 也 就 是 说 ， 
可 以 保留 Thurs、Fri 等 值 ， 但 要 将 星期 六 拆 分 为 Sat-sumer, Sat-spring 和 Sat-fall, 
使 用 这 种 方法 拟 合 出 的 模型 与 使 用 wday 和 term 的 所 有 组 合 拟 合 出 的 模型 有 什么 不 同 ? 

(4) 创建 一 个 新 的 wday 变量 ， 将 一 周 7 天 、( 星 期 六 的 ) 学 期 因素 和 公共 假期 组 合 起 来 ， 对 
于 这 个 新 变量 拟 合 出 的 模型 ， 其 残 差 是 怎样 的 ? 

(5) 如 果 在 考虑 月 份 的 情况 下 拟 合 周 内 效应 ( 即 n ~ wday * month)， 那 么 会 是 什么 情况 ? 
为 什么 这 种 模型 用 处 不 大 ? 

(6) 你 觉得 n ~ wday + ns(date, 5) 这 个 模型 的 效果 会 怎么 样 ? 基于 对 数据 的 理解 ， 为 什么 
你 会 觉得 这 个 模型 不 会 特别 有 效 ? 

(7) 我 们 进行 了 这 样 一 个 假设 : 星期 日 出 发 的 人 们 多 数 都 是 出 差 ， 需 要 在 星期 一 到 达 某 个 地 
方 。 仔 细 研 究 一 下 这 个 假设 ， 看 看 如 何 基 于 航班 时 间 与 距离 来 证 明 这 个 假设 是 错误 的 : 
如 果 这 个 假设 正确 ， 那 么 数据 中 就 应 该 有 更 多 在 星期 日 晚上 出 发 的 远 途 航班 。 

(8) 在 前 面 的 图 形 中 ， 星 期 日 和 星期 六 分 别处 于 图 形 的 两 端 ， 这 样 给 人 的 感觉 不 大 好。 编写 
一 个 小 函数 ， 重 新 设置 因子 水 平 ， 以 便 一 周 从 星期 一 开始 。 


18.4 学 习 更 多 模型 知识 


本 章 只 是 对 建 模 进 行 了 一 点 晴 晓 点 水 式 的 介绍 ， 但 我 们 确实 希望 你 能 从 中 获取 一 些 简单 而 
又 通用 的 技能 ， 以 提高 自己 的 数据 分 析 水 平 。 千 里 之 行 ， 始 于 足下 ! 如 你 所 见 ， 即 使 是 非 
常 简 单 的 模型 ， 如 果 有 能 力 使 用 不 同方 法 来 处 理 变量 ， 那 么 也 会 得 到 差异 非常 大 的 结果 。 
与 本 书 其 他 部 分 相 比 ， 关 于 建 模 内 容 的 这 部 分 更 多 地 摊 杂 了 个 人 观点 。 我 们 从 与 大 多 数 人 
不 同 的 角度 来 构建 模型 ， 而 且 本 书 留 给 建 模 的 篇 幅 确实 有 些 少 。 其 实 需要 一 本 专门 的 著作 
来 介绍 建 模 ， 因 此 ， 我 们 强烈 建议 你 至 少 阅 读 以 下 三 本 书 中 的 一 本 。 
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° Statistical Modeling: A Fresh Approach, Danny Kaplan 著 。 这 本 书 既 对 建 模 进行 了 简单 明 
了 的 介绍 ， 也 可 以 帮助 你 建立 直觉 、 掌 握 数 学 工具 和 及 语言 技能 。 这 本 书 不 是 那 种 传 
统 的 “统计 学 入 门 ”教材 ， 而 是 提供 了 与 数据 科学 相关 的 最 新 内 容 。 

° An Introduction to Statistical Learning, Gareth James, Daniela Witten, Trevor Hastie 及 
Robert Tibshirani 著 (有 免费 的 在 线 版 )。 这 本 书 介绍 了 称 为 “统计 学 习 ” 的 一 整套 现代 
建 模 技术 。 如 果 想 要 加 深 对 模型 的 数学 理解 ， 可 以 阅读 Trevor Hastie、Robert Tibshirani 
和 Jerome Friedman 的 经 典 著 作 Elements of Statistical Learning (有 免费 的 在 线 版 ) 。 

。 Applied Predictive Modeling, Max Kuhn 及 Kjell Johnson 音 。 这 本 书 是 对 caret 包 的 重要 
补充 ， 提 供 了 多 种 实用 工具 ， 可 以 帮助 你 解决 实际 工作 的 预测 性 建 模 难题 。 
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= 19 


使 用 purrr 和 bro0m 处 理 多 个 模型 





19.1 简介 

本 章 将 介绍 3 种 功能 强大 的 方法 来 帮助 我 们 游 力 有 余地 处 理 大 量 模 型 。 

。 使 用 多 个 简单 模型 来 更 好 地 理解 复杂 数据 集 。 

。 使 用 列表 列 在 数据 框 中 保存 任意 数据 结构 。 例 如 ， 可 以 通过 这 种 方法 让 数据 列 中 包含 线 
性 模型 。 

。 使 用 David Robinson 开发 的 broom 包 将 模型 转换 为 整洁 数据 。 这 是 一 种 非常 强大 的 技术 ， 
可 以 处 理 大量 模 型 ， 因 为 一 旦 有 了 整洁 数据 ， 我 们 在 本 书 前 面 学 到 的 所 有 技术 就 有 用 武 
之 地 了 。 

以 下 各 节 将 详细 介绍 本 章 要 使 用 的 各 种 技术 。 

19.2 节 将 介绍 关于 列表 列 的 数据 结构 知识 ， 以 及 可 以 将 列表 放 在 数据 框 中 的 原因 。 

19.3 节 将 介绍 创建 列表 列 的 3 种 主要 方法 。 

19.4 节 将 介绍 如 何 将 列表 列 还 原 为 常用 的 原子 向 量 (或 原子 向 量 集 合 )， 以 便 更 容易 进 
行 处 理 。 

19.5 节 将 介绍 由 broom 包 提 供 的 一 整套 工具 ， 以 及 它们 在 其 他 类 型 数据 结构 上 的 使 用 
方法 。 

本 章 属 于 进 阶 内 容 ， 如 果 本 书 是 你 的 第 一 本 R 语言 书 ， 那 么 本 章 将 是 一 个 严峻 挑战 。 它 

需要 你 对 建 模 、 数 据 结 构 适 代 都 有 深刻 理解 。 因 此 ， 如 果 看 不 懂 本 章 内 容 ， 也 不 要 担 

心 先 将 它 放 在 一 边 ， 如 果 几 个 月 后 想 做 做 思维 训练 ， 就 再 来 读 读 看 。 
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准备 工作 
处 理 多 个 模型 需要 tidyverse 中 的 多 个 包 (分 别 用 于 数据 探索 、 纷 争 和 编程 ) ， 以 及 帮助 建 
模 的 modelr 包 。 


library(modelr) 
library(tidyverse) 


19.2 ”列表 列 


本 节 将 详细 地 研究 列表 列 的 数据 结构 。 直 到 最 近 ， 我 们 才 真正 领会 列表 列 的 设计 思想 。 列 
表 列 是 隐 式 定义 在 数据 框 中 的 : 数据 框 是 由 相同 长 度 的 向 量 组 成 的 命名 列表 。 一 个 列表 就 
是 一 个 向 量 ， 因 此 将 列表 作为 数据 框 的 一 列 是 完全 合理 的 。 但 是 ， 在 R 基础 包 中 创建 列表 
列 是 非常 困难 的 ， 而 且 data.frame() 函数 是 将 列表 作为 列 的 列表 来 处 理 的 : 

data.frame(x = list(1:3, 3:5)) 

Ho KAI KS 

#1 1 3 


#> 2 2 4 
#> 3 3 5 


要 想 data.frame() MZEE, LME 10 函数 ， 但 是 输出 结果 却 是 难以 理解 的 : 


data.frame( 
x = (list: 3; 3:57); 
y = c("1, 2", "3, 4, 5") 









































tibble 更 懒惰 一 些 (tibble 不 对 输入 进行 修改 )， 但 更 容易 创建 列表 列 ， 输 出 结果 也 更 容 
易 理 解 : 
tibble( 


X = sti: 305) 
y š ("i 25 < 4, 5") 























) 

#> # A tibble: 2 x 2 
#> x y 
#> <list> <ehrs 


#> 1 <tnt [3]> f, 2 
#> 2 <int [3]> 3, 4, 5 


使 用 tribble() 函数 则 更 容易 ， 因 为 它 可 以 自动 识别 出 你 想 要 的 列表 : 


tribble( 
~X, ~y, 


#> # A tibble: 2 x 2 
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#> x y 
#> <list> <chr> 
#> Í <tnt [3]> Ta 2 
#> 2 <in F3]> 3; 4; 5 


列表 列 的 最 大 用 处 是 作为 一 种 中 间 数 据 结构 。 要 想 直接 处 理 列表 列 是 比较 困难 的 ， 因 为 大 
多 数 R 函数 只 能 处 理 原子 向 量 或 数据 框 。 但 列表 列 可 以 将 相关 项 目 统一 保存 在 一 个 数据 框 
中 ， 仅 这 一 个 优点 就 值得 我 们 花 些 精力 来 学 习 它 。 

一 般 来 说 ， 要 想 有 效 地 使 用 列表 列 ， 需 要 3 个 步骤 。 


(1) 使 用 19.3 节 中 介绍 的 3 种 方法 之 一 来 创建 列表 列 。 这 3 种 方法 是 : nest()、summarize() + 
List() 以 及 mutate() + 映射 函数 。 


(2) 通 过 使 用 map()、map2() 或 pmap() 函数 转换 现 有 列表 列 ， 创 建 一 个 中 间 列 表 列 。 例 如 ， 
在 前 面 的 案例 研究 中 ， 我 们 通过 转换 数据 框 的 列表 列 创建 了 一 个 模型 列表 列 。 


(3) 使 用 19.4 市 中 介绍 的 方法 ， 将 列表 列 简化 还 原 成 数据 框 或 原子 向 量 。 


19.3 创建 列表 列 

通常 来 说 ， 我 们 不 会 使 用 tibble() 函数 创建 列表 列 ， 而 是 使 用 以 下 3 种 方法 之 一 ， 根 据 普 

通 列 进行 创建 。 

(1 使 用 tidyr::nest() 函数 将 分 组 数据 框 转 换 为 租 套 数据 框 ， 峰 父 数 据 框 中 会 包含 数据 框 
列表 列 。 

(2) 使 用 mutate() 函数 以 及 能 够 返回 列表 的 向 量化 函数 。 

(3) 使 用 summarize() 函数 以 及 能 够 返回 多 个 结果 的 摘要 函数 。 

另外 ， 我 们 还 可 以 使 用 tibble: :enframe() 函数 根据 命名 列表 来 创建 列表 列 。 


通常 来 说 ， 在 创建 列表 列 时 ， 应 该 确保 这 些 列 是 同 质 的 ， 即 列 中 的 每 个 元 素 都 包含 同样 类 
型 的 内 容 。R 不 对 这 种 要 求 进行 检查 ， 但 如 果 想 要 对 列表 列 使 用 purrr 函数 或 者 要 求 类 型 
一 致 的 函数 时 ， 你 就 会 发 现 这 种 要 求 是 顺理成章 的 。 


19.3.1 HRE 


可 以 使 用 nest() 函数 创建 戏 套 数据 框 ， 即 带 有 数据 框 列表 列 的 数据 框 。 在 艇 套数 据 框 中 ， 
每 行 都 是 一 个 元 观测 : 除 列表 列 外 的 列 给 出 了 定义 观测 的 变量 ， 数 据 框 中 的 列表 列 则 给 出 
了 组 成 元 观测 的 具体 观测 。 

nest() 函数 有 两 种 使 用 方式 。 当 用 于 分 组 数据 框 时 ，nest() 函数 会 保留 用 于 分 组 的 列 ， 而 
将 其 他 所 有 数据 归并 到 列表 列 中 。 

还 可 以 在 未 分 组 数据 框 上 使 用 nest()， 此 时 需要 指定 对 套 哪些 列 。 






















































































19.3.2 ”使 用 向 量化 函数 


有 些 常用 函数 接受 一 个 原子 向 量 并 返回 一 个 列表 。 例 如 ， 我 们 在 第 10 章 中 学 习 了 
stringr::str_split() 国 数 ， 它 接受 一 个 字符 向 量 ， 并 返回 字符 向 量 的 一 个 列表 。 如 果 在 
mutate() 国 数 中 使 用 这 个 国 数 ， 那 么 就 会 得 到 一 个 列表 列 : 


df <- tribble( 
~x1, 
"a,b,c", 
"d,e,t 8" 

) 





df %>% 
mutate(x2 = stringr::str_split(x1, ",")) 
#> # A tibble: 2 x 2 
#> x1 x2 
#> <chr> <list> 
#= 1 “GDbe schr [3]> 
#> 2 d;e,f;g schr F4]> 


unnest() 国 数 知 道 如 何 处 理 这 些 向 量 列表 : 


df %>% 
mutate(x2 = stringr::str_split(x1, ",")) %>% 
unnest() 

#> # A tibble: 7 x 2 

#> x1 x2 

办 > <chr> <chr> 

HS. Gb; 

#= 2 asbse 

5 aab; 


#4 d; ë; f. 9 
#> 5 te, fg 
#> 6 d,e,f,g 
#> # ... with 1 more rows 


(ZH: Br E H Rh Sa RJ, E F tidyr::separate_rows() 国 数 ， 其 
包装 了 这 种 常见 的 、 将 一 列 拆 分 成 多 行 的 功能 。) 


使 用 向 量化 函数 创建 列表 列 的 另 一 个 示例 是 使 用 purrr 包 中 的 map(). map2() 和 pmap() E 
数 。 例 如 ， 我 们 再 看 一 下 16.7 市 中 的 “调用 不 同 函 数 ” 中 的 最 后 一 个 示例 ， 并 重 写 代码 以 
应 用 mutate() 函数 : 


sim <- tribble( 
~f, ~params, 
"runif", list(min = -1, max = -1), 
"Phorm"”, Utst(sd = 5); 
"rpois", list(lambda = 10) 
) 


SN ë (ry S. S 


sim %>% 

mutate(sims = invoke_map(f, params, n = 10)) 
办 > # A tibble: 3 x 3 
#> # params sims 





使 用 purrr 和 broom 处 理 多 个 模型 | 287 


#> <Chr> 





用 像 quantile) 这 样 的 函数 ， 因 为 它 会 返 


mtcars %>% 


<list> 
#> í runif <list [2]> 
#> 2 rnorm <list [1]> 
#> 3- pots <slist [1]> 
注意 ， 从 技术 角度 来 说 ，sinm 并 不 是 同 质 的 ， 
但 是 ， 因 为 整 型 向 量 和 双 精 度 型 向 量 都 是 数值 型 向 量 ， 所 以 不 会 有 什么 大 问题 。 


19.3.3 ”使 用 多 值 摘要 


summarize() 函数 的 一 个 局 限 性 是 ， 只 能 使 用 返回 单一 值 的 摘要 函数 。 这 意味 着 我 们 不 能 使 


group_by(cyl) %>% 
summarize(q = quantile(mpg)) 
#> Error in eval(expr, envir, enclos): expecting a single value 


然而 ， 你 可 以 将 结果 包装 在 一 个 列表 中 ! 这 是 符合 summarize() 函数 的 约定 的 ， 因 为 这 档 

















<list> 
<dbl [10]> 
<dbl [10]> 
<int [10]> 





因为 其 中 既 有 双 精 度 型 向 量 ， 也 有 整 型 向 量 。 


回 任意 长 度 的 向 量 : 


每 个 摘要 结果 就 是 一 个 长 度 为 1 的 列表 (向量) T: 


mtcars %>% 


group_by(cyl) %>% 
summarize(q = list(quantile(mpg))) 
#> # A tibble: 3 x 2 


办 > cyl 
#> <dbl> 


probs <- (0,01, 0.25, 0.5, 0.75, 0.99) 


mtcars %>% 


q 


<list> 
#1 4 <dbl [5]> 
#> 2 6 <dbl [5]> 
#> 3 8 <dbl [5]> 


要 想 让 unnest() 函数 的 结果 更 可 用 ， 我 们 还 需要 表示 出 概率 : 


group_by(cyl) %>% 
summarize(p = list(probs), q = list(quantile(mpg, probs))) %>% 


unnest() 

#> # À tibble; 35 * 3 
#> cyl p q 
#> <dbl> <dbl> <dbl> 
#> 1 4 0.01 21.4 
#> 2 4- 0.25. 22:8 
#> 3 4 0.50 26.0 
#> 4 4 0.75 30.4 
#> 5 4 0.99 33.8 
#> 6 6 @, 01 17.8 
#> # ... with 9 more rows 


19.3.4 ”使 用 命名 列表 


带 有 列表 列 的 数据 所 





EE 可 以 解决 一 种 常见 问题 ， 如 何 同时 对 列表 的 元 素 及 元 素 内 容 进 和 


tt 





ea 








代 ? 相对 于 将 所 有 元 素 内 容 塞 进 一 个 对 象 ， 更 容易 的 一 种 方法 是 创建 一 个 数据 框 : 一 列 
包含 元 素 名 称 ， 另 一 列 包含 元 素 中 的 列表 内 容 。 创 建 这 种 数据 框 的 一 种 简单 方法 是 使 用 
tibble::enframe() PŽ: 








x <- list( 

a = 1:5, 

b = 3:4, 

c = 5:6 
) 
df <- enframe(x) 
df 
#> # A tibble: 3 x 2 
#> name value 
#> <chr> < St 
#> 1 a <int [5]> 
#> 2 b <int [2]> 
#> 3 e sint [2]> 


这 种 结构 的 优点 是 可 以 用 非常 简单 的 方式 进行 扩展 ， 如 果 有 元 数据 字符 向 量 ， 那 么 名 称 是 
很 有 用 的 ， 但 如 果 有 其 他 类 型 的 数据 或 多 个 向 量 ， 那 么 名 称 就 没有 什么 作用 了 。 


如 有 果 想 要 同时 对 名 称 和 值 进行 迭代 ， 那 么 可 以 使 用 map2() 函数 : 


df %>% 
mutate( 
smry = map2_chr( 
name, 
value, 
a Stringrsete eG “e * NSP] 
) 
) 
办 > # A tibble: 3 x 3 
#> name value smry 
#>  <chr> slist><chr> 
> 1 a int [5]> à 3 
WS 2 b <int [2]> bz 3 
#> 3 ë <sint [2]> C3 

















19.3.5 ”练习 
(1) 列举 你 能 想到 的 接受 一 个 原子 向 量 并 返回 一 个 列表 的 所 有 函数 。 
(2) 进行 头脑 风暴 ， 列 举 返 回 多 个 值 的 所 有 摘要 函数 ， 如 quantile()。 


G) 以 下 数据 框 丢失 了 什么 信息 ? 如 何 使 quantile() 函数 返回 那些 丢失 的 数据 ?为 什么 那 
些 数 据 在 这 里 不 是 很 重要 ? 
mtcars %>% 


group_by(cyl) %>% 
summarize(q = list(quantile(mpg))) %>% 











unnest() 
#> # A tibble: 15 x 2 
#> cyl q 


#> <dbl> <dbl> 
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#1 4 21.4 
#> 2 4 22.8 
#> 3 4 26.0 
#> 4 4 30.4 
#> 5 4 33.9 
#> 6 6 17.8 
#> # ... with 9 more rows 


(4) 以 下 代码 的 作用 是 什么 ”为 什么 它 或 许 会 有 用 ? 


mtcars %>% 
group_by(cyl) %>% 
summarize_each(funs(list)) 


19.4 简化 列表 列 


为 了 应 用 在 本 书 中 学 到 的 数据 处 理 和 可 视 化 技术 ， 我 们 需要 将 列表 列 简 化 还 原 为 一 个 普通 
列 〈 即 一 个 原子 向 量 ) 或 一 组 普通 列 。 在 将 列表 列 还 原 为 简单 结构 时 ， 根 据 想 要 将 列表 列 
的 一 个 元 素 转 换 为 单个 值 还 是 多 个 值 ， 再 决定 使 用 哪 种 技术 。 


如 果 想 要 得 到 单个 值 ， 就 使 用 mutate() 以 及 map_lg1()、map_int()、map_db1() 和 map_ 
chr() 函数 来 创建 一 个 原子 向 量 。 
如 果 想 要 得 到 多 个 值 ， 就 使 用 unnest() 函数 将 列表 列 还原 为 普通 列 ， 这 样 可 以 按 需 要 
将 行 多 次 重复 。 

以 下 各 节 将 更 加 详细 地 介绍 这 两 种 技术 。 


19.4.1 列表 转换 为 向 量 


如 果 可 以 将 列表 列 缩减 为 一 个 原子 向 量 ， 那 么 这 个 原子 向 量 就 可 以 作为 一 个 普通 列 。 例 如 ， 
你 可 以 总 是 使 用 类 型 和 长 度 来 描述 一 个 对 象 ， 因 此 对 于 所 有 列表 列 ， 以 下 代码 都 可 以 运行 : 


df <- tribble( 
~X, 
letters[1:5], 
L: 3; 
runif(5) 
) 
df %>% mutate( 
type = map_chr(x, typeof), 
length = map_int(x, length) 
) 
#> # A tibble: 3 x 3 


























#> x type length 
#> <list> <chr> <int> 
#> 1 <chr [5]> character 5 
#> 2 <int [3]> integer 3 
#> 3 <dbt [5]> double 5 


使 用 默认 的 表格 打印 方法 同样 可 以 得 到 这 些 基本 信息 ， 但 现在 你 就 可 以 使 用 它们 进行 筛选 
操作 了 。 如 果 你 有 一 个 异 构 列表 ， 并 且 想 要 筛选 掉 其 中 不 需要 的 部 分 ， 那 么 就 可 以 使 用 这 
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种 方法 。 

别 忘 了 ， 我 们 还 可 以 使 用 map_*() 快捷 方式 ， 例 如 ， 你 可 以 使 用 map_chr(x, "apple") M x 
的 每 个 元 素 中 提取 变量 apple 中 的 内 容 。 这 种 方法 可 以 提取 舱 套 列表 中 的 一 部 分 ， 并 使 结 
果 成 为 普通 列 。 如 果 元 素 中 有 缺失 值 ， 还 可 以 使 用 .nutl 参数 提供 一 个 返回 值 (而 不 是 返 
回 NULL) : 





df <- tribble( 


Ki 
Tasu(a = 3; b = 2y, 
Wet(as 2, @ = 45 


df %>% mutate( 
a = map_dbl(x, "a"), 
b = map_dbl(x, "b", .null = NA_real_) 


) 

办 > # A tibble: 2 x 3 

#> x a b 
#> <list> <dbl> <dbl> 
#> 1 <ltst [2]> Í 2 


#> 2 <list [2]> 2 NA 


19.4.2 RELE 

unnest() 函数 对 列表 列 中 的 每 个 元 素 都 重复 一 次 普通 列 。 例 如 ， 在 以 下 这 个 非常 简单 的 示 
例 中 ， 我 们 将 第 一 行 重 复 了 4 次 (因为 y 中 的 第 一 个 元 素 的 长 度 是 4) ， 而 第 二 行 只 重复 了 
1 次 : 


tibble(x = 1:2, y = list(1:4, 1)) %>% unnest(y) 
#> # A tibble: 5 x 2 


#> x y 
#> <int> <dbl> 
#> 1 1 1 
#> 2 i 2 
#> 3 1 3 
#> 4 í 4 
#> 5 2 z 


这 意味 着 你 不 能 同时 还 原 包含 不 同 数量 元 素 的 两 个 列表 列 : 


# 以 下 代码 可 以 运行 ， 因 为 y 和 z 每 行 中 的 元 素数 量 都 相同 
df1 <- tribble( 


~X, ~y, ~Z, 

人 

pe 3 
) 
df1 
办 > # A tibble: 2 x 3 
#> x y z 
#> <dbl> <list> <list> 
#> 1 1 chr [2]> <int [2]> 


#> 2 2 <chr [1]> <dbl [1]> 
df1 %>% unnest(y, z) 
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#> ZA tibble;: 3 x 3 


#> x y z 
#> <dbl> <chr> <dbl> 
.| $ a 1 
#= 2 1 b 2 


办 > 3 2 C 3 


# 以 下 代码 不 能 运行 ， 因 为 y 和 z 每 行 中 的 元 素数 量 不 同 
df2 <- tribble( 
~X， Y: , ~Z, 





df2 

#> # A tibble: 2 x 3 

#> X y Z 
Ws <dbl> <list> <list> 
#> 1 f schr LS stne [2> 


#> 2 2 <chr [2]> <dbl [1]> 

df2 %>% unnest(y, z) 

#> Error: All nested columns must have 
#> the same number of elements. 


数据 框 列表 列 的 还 原 也 遵循 同样 的 原则 。 只 要 每 行 中 数据 框 的 行 数 都 相同 ， 那 么 你 就 可 以 
同时 还 原 多 个 列表 列 。 


19.4.3 y 
(1) 为 什么 可 以 使 用 Lengths() 国 数 根据 列表 列 创建 原子 向 量 ? 
(2) 列举 数据 框 中 最 常用 的 向 量 类 型 。 列 表 和 数据 框 有 什么 不 同 ? 


19.5 ”使 用 broom 生 成 整洁 类 


broom 包 提 供 了 3 种 常用 工具 ， 用 于 将 模型 转换 为 整洁 数据 框 。 


° broom: :glance(model) 为 每 个 模型 返回 一 行 数据 ， 其 中 每 一 列 都 是 模型 的 一 个 摘要 统计 
量 : 要 么 是 模型 质量 的 度量 方式 ， 要 么 是 模型 复杂 度 ， 又 或 者 是 二 者 的 组 合 

e broom: ;tidy(model) 为 模型 的 每 个 系数 返回 一 行 数据 ， 其 中 每 一 列 都 是 系数 的 估计 值 或 
变异 指标 。 

。 broom: :augment(model，data) 返回 data 中 的 每 一 行 ， 但 会 添加 一 些 额 外 信息 ， 如 残 差 
以 及 其 他 一 些 有 影响 的 统计 量 。 


broom 的 适用 范围 很 广 ， 支 持 大 量 常用 建 模 包 所 生成 的 模型 。 可 以 搜索 并 查看 一 下 broom 
现在 支持 的 模型 列表 。 
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第 五 部 分 


沟通 





到 目前 为 止 ， 我 们 已 经 学 习 了 如 何 将 数据 导入 R、 如 何 将 数据 整理 为 方便 分 析 的 形式 ， 以 
及 如 何 通 过 转换 、 可 视 化 与 建 模 来 理解 数据 。 但 除非 能 向 他 人 解释 结果 ， 否 则 无 论 你 的 数 
据 分 析 做 得 多 么 精彩 ， 都 没什么 用 处 。 因 此 ， 你 需要 与 他 人 沟通 工作 成 果 。 




















可 视 化 


E 一 > 转换 = 沟通 





Ç am 





编程 
沟通 是 这 一 部 分 4 章 内 容 的 主题 。 

第 20 章 将 介绍 R Markdown， 这 是 一 种 集成 文本 、 代 码 和 结果 的 工具 。R Markdown 提 
供 了 笔记 本 模式 供 不 同 的 分 析 者 进行 沟通 与 交流 ， 还 提供 了 报告 模式 供 分 析 者 和 决策 者 
进行 沟通 与 交流 。 由 于 R Markdown 文件 的 强大 功能 ， 你 甚至 可 以 使 用 同一 个 文档 来 同 
时 实现 上 述 两 种 目的 。 

第 21 章 将 介绍 如 何 将 探索 性 图 形 转换 为 解释 性 图 形 。 解 释 性 图 形 可 以 帮助 人 们 尽 可 能 
快速 又 轻松 地 理解 你 的 分 析 工 作 。 
第 22 章 将 介绍 使 用 R Markdown 可 生成 的 多 种 输出 ， 其 中 包括 仪表 盘 、 网 站 和 书籍 。 

第 23 章 是 本 书 的 最 后 一 章 ， 将 介绍 如 何 制作 “分 析 式 笔记 本 ”， 以 及 如 何 系统 地 记录 工 
作 中 的 成 功 和 失败 ， 以 便 总 结 经 验 和 教训 。 


遗憾 的 是 ， 以 上 各 章 重 点 关注 的 是 沟通 的 技术 机 制 ， 而 不 是 人 与 人 之 间 想 法 的 实际 询 通 。 
但 是 ， 我 们 将 在 每 章 末 尾 介绍 一 些 关 于 实际 沟通 的 优秀 著作 。 
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R Markdown 





20.1 简介 

R Markdown 为 数据 科学 提供 了 一 种 统一 的 写作 框架 ， 可 以 集成 代码 、 输 出 结果 和 文本 注释 。 

R Markdown 文档 是 完全 可 重用 的 ， 并 支持 多 种 输出 形式 ， 包 括 PDF、Word、 幻 灯 片 等 。 

R Markdown 文件 的 应 用 方式 有 3 种 。 

。 与 决策 者 沟通 交流 ， 这 部 分 人 关注 的 是 最 终结 论 ， 而 不 是 分 析 背 后 的 代码 。 
与 其 他 数据 科学 家 (包括 未 来 的 你 ) 协作 ， 这 部 分 人 关心 的 内 容 既 包括 最 终结 论 ， 也 包 
括 得 到 结论 的 过 程 〈 也 就 是 代码 )。 

。 作为 开展 数据 科学 工作 的 一 种 环境 ， 它 是 一 种 现代 化 的 实验 室 记 录 工 具 ， 不 但 可 以 记录 
你 的 实际 工作 ， 还 可 以 记录 你 的 思考 过 程 。 

R Markdown 集成 了 一 些 R 包 和 外 部 工具 。 这 意味 着 基本 上 不 能 再 使 用 ? 获取 帮助 了 。 基 

此 ， 当 学 习 本 章 或 未 来 使 用 R Markdown 进行 工作 时 ， 你 最 好 将 以 下 资料 放 在 手边 。 


° R Markdown 速 查 表 : 在 RStudio IDE 中 就 可 以 找到 ， 路 径 为 Help 一 Cheatsheets > R 
Markdown Cheat Sheet。 

。 R Markdown 用 户 指南 : 在 RStudio IDE 中 就 可 以 找到 ， 路 径 为 Help 一 Cheatsheets 一 R 
Markdown Reference Guide, 


准备 工作 
我 们 需要 使 用 rmarkdown 包 ， 但 不 用 显 式 地 安装 或 加 载 这 个 包 ， 因 为 RStudio 可 以 在 我 们 
需要 时 自动 完成 这 些 工作 。 


20.2 RMarkdown 基 础 


以 下 就 是 一 个 R Markdown 文件 ， 一 个 扩展 名 为 .Rmd 的 纯 文 本 文件 : 
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title: "Diamond sizes" 
date: 2016-08-25 
output: html_document 


```(r setup, include = FALSE} 
library(ggplot2) 
library(dplyr) 


smaller <- diamonds %>% 
filter(carat <= 2.5) 


We have data about `r nrow(diamonds)` diamonds. Only 
`r nrow(diamonds) - nrow(smaller)` are larger than 

2.5 carats. The distribution of the remainder is shown 
below: 


```(r, echo = FALSE} 
smaller %>% 


ggplot(aes(carat)) + 
geom_freqpoly(binwidth = 0.01) 


这 个 文件 包含 了 3 种 重要 的 内 容 类 型 。 

(1) 两 个 --- 之 间 的 (可 选 ) YAML 文件 头 。 

(2) 两 个 `、 ZEK R 代码 段 。 

(3) 一 些 具有 简单 格式 的 文本 ， 比 如 前 面 用 # 表 示 的 文本 标题 ， 以 及 两 个 _ 之 间 的 斜体 。 


打开 一 个 .Rmd 文件 后 ， 就 会 进入 笔记 本 界面 ， 其 中 代码 和 代码 结果 可 以 交互 显示 。 通 过 
点 击 Run 图 标 (位 于 代码 段 上 方 ， 类 似 播 放 按 钮 ) 或 按 组 合 键 CtrltShifttEnter， 就 可 以 运 
行 每 个 代码 段 。RStudio 可 以 运行 代码 ， 并 将 运行 结果 显示 在 代码 下 面 。 


—IDocumentsiráds/rads/rmarkdown - master - RStudio 



































D markdown > 
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如 果 想 要 生成 包含 所 有 文本 、 代 码 和 输出 的 完整 报告 ， 可 以 点 击 Knit 或 按 组 合 键 
Ctrl+Shift+K。 还 可 以 使 用 代码 rmarkdown: :render("1-example.Rmd") 在 程序 中 完成 这 个 操 
作 。 报 告 会 显示 在 查看 器 窗 格 中 ， 并 生成 可 以 与 他 人 分 享 的 一 个 独立 的 HTML 文件 。 


ose —IDocumentairadsjrads/rmarkdown - master - RStudio 
[er 





meredown ~ 


< Mbish + 


Diamond sizes 


» 2016-08-25 


reminder is shown bel 





在 生成 文档 时 ，R Markdown 先 将 .Rmd 文件 发 送 给 knitr，knitr 会 执行 所 有 代码 段 ， 并 创建 
一 个 新 的 Markdown 文件 (md) ， 甚 中 包含 所 有 代码 和 输出 。 然 后 knitr 生成 的 Markdown 
文件 再 由 pandoc 进行 处 理 ， 并 生成 最 终 文件 。 这 种 两 阶段 工作 流 的 优点 是 可 以 创建 多 种 输 
出 格式 ， 第 22 章 将 介绍 这 些 格式 。 
































knitr md pandoc 


如 果 想 要 创建 自己 的 .Rmd 文件 ， 可 以 在 菜单 栏 选择 File 一 New File > R Markdown…… 
RStudio 会 启动 一 个 向 导 程 序 ， 对 文件 预先 填充 一 些 有 用 的 内 容 ， 并 对 如 何 使 用 R Markdown 
的 核心 功能 作出 提示 。 


以 下 几 节 将 详细 介绍 R Markdown 文件 的 3 个 主要 组 成 部 分 : Markdown 文本 、 代 码 段 和 
YAML 文件 头 。 


练习 

(1) 使 用 File > New File > R Notebook 创建 一 个 新 的 Notebook 文件 。 阅 读 操作 指示 ， 并 实 
际 运行 代码 段 。 确 认 你 能 够 修改 代码 、 重 新 运行 代码 ， 并 检查 修改 后 的 运行 结果 。 

(2) 使 用 File 一 New File — R Markdown 创建 一 个 新 的 R Markdown 文件 。 使 用 正确 的 按钮 生成 
这 个 文件 。 使 用 正确 的 组 合 键 生 成 这 个 文件 。 确 认 你 能 够 修改 输入 ， 并 获得 更 新 后 的 输出 。 

(3) 比较 并 对 比 你 在 前 面 创 建 的 R Notebook 文件 和 R Markdown 文件 。 它 们 的 输出 有 什么 
相同 之 处 ? 有 什么 不 同 之 处 ?它们 的 输入 有 什么 相同 之 处 ?” 有 什么 不 同 之 处 ”如果 将 一 
个 文件 的 YAML 文件 头 复制 到 另 一 个 文件 中 ， 会 发 生 什么 情况 ? 
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(4) 对 于 3 种 内 置 格式 HTML, PDF 和 Word， 分 别 创建 一 个 新 的 R Markdown 文件 ， 并 生成 
这 3 种 文件 。 这 3 种 文件 的 输出 有 什么 不 同 ? 输入 有 什么 不 同 ? (为 了 生成 PDF 输出 ， 
需要 安装 LaTex，RStudio 会 在 需要 时 提醒 你 。) 


20.3 ”使 用 Markdown 格 式 化 文本 


.Rmd 文件 中 的 文本 是 用 Markdown 语言 写成 的 ，Markdown 是 用 于 格式 化 纯 文本 文件 的 
一 种 轻 量 级 语法 ， 其 设计 思想 就 是 使 得 文本 既 容 易 书 写 又 容易 阅读 。Markdown 学 习 起 来 
非常 容易 ， 以 下 指南 给 出 了 使 用 Pandoc Markdown 的 方法 ， 这 是 R Markdown 可 以 理解 的 
Markdown 的 一 种 扩展 版 本 : 


Text formatting 


























*italic* or _italic_ 

**bold** __bold__ 

`code` 

superscript^2^ and subscript~2~ 


Headings 


# 1st Level Header 
## 2nd Level Header 


### 3rd Level Header 


* Bulleted list item 1 
* Item 2 

* Item 2a 

* Item 2b 
1. Numbered list item 1 


1. Item 2. The numbers are incremented automatically in 
the output. 


Links and images 


<http: / /example.com> 
[linked phrase](http://example.com) 


![optional caption text](path/to/img.png) 
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Tables 


First Header | Second Header 


OCR | 
Content Cell | Content Cell 
Content Cell | Content Cell 


学 习 Markdown 语法 的 最 好 方法 就 是 练习 。 可 能 需要 几 天 的 时 间 ， 但 你 很 快 就 能 熟 
悉 这 种 语法 ， 无 须 思 芳 就 可 以 熟练 自如 地 使 用 。 如 果 忘 记 了 某 种 语法 ， 可 以 使 用 
Help 一 Markdown Quick Reference 来 获取 帮助 。 


练习 


(1) 通过 创建 个 人 简历 来 练习 使 用 R Markdown 文件 。 一 级 标题 是 你 的 姓名 ， 并 且 至 少 要 包括 
以 下 二 级 标题 : 教育 背景 和 工作 经 历 。 每 个 二 级 标题 下 都 应 该 包括 一 个 无 序列 表 ， 列 出 你 
的 学 位 和 工作 信息 。 使 用 粗 体 来 强调 年 份 。 


(2) 使 用 R Markdown 快速 参考 来 找 出 以 下 操作 方法 。 


a. 添加 一 个 脚注 。 
b. 添加 一 条 水 平分 隔 线 。 
c. 添加 一 个 块 级 引用 。 


(3) 从 https://github.com/hadley/r4ds/tree/master/rmarkdown 复制 diamond-sizes.Rmd 文件 ， 并 
粘贴 到 本 地 的 一 个 R Markdown 文件 中 。 确 认 这 个 文件 可 以 运行 ， 然 后 在 频率 多 边 形 图 
下 面 添加 一 些 文本 来 描述 这 个 图 中 最 引 人 注 目的 特征 。 


20.4 REF 


要 想 在 R Markdown 文件 中 运行 代码 ， 你 需要 插入 代码 段 。 揪 入 代码 段 的 方法 有 3 种 。 

(1) 使 用 组 合 键 Ctrl+Alt+I。 

(2) 使 用 编辑 器 工具 栏 上 的 Insert 按钮 。 

(3) 手工 输入 代码 段 标记 符 `…{r} 和 ………。 

显然 ， 我 们 建议 你 使 用 组 合 键 ， 因 为 长 远 来 看 ， 这 可 以 节省 大 量 时间 。 

接 下 来 ， 你 可 以 使 用 迄今 为 止 我 们 (希望 你 也 是 ) 最 喜欢 的 一 个 组 合 键 来 运行 代码 : 
Ctrl+Enter。 还 可 以 使 用 一 个 新 的 组 合 键 : Ctrl+Shift+Enter， 这 个 组 合 键 可 以 运行 代码 段 内 
的 全 部 代码 。 我 们 可 以 将 代码 段 看 作 一 个 国 数 ， 它 是 相对 独立 的 ， 而 且 专 广 于 实现 某 个 特 
定 任务 。 

以 下 各 节 将 介绍 代码 段 的 头 部 ， 它 由 fr 开头 ， 接 着 是 一 个 可 选 的 代码 段 名 称 ， 然 后 是 由 
逗号 分 隔 的 代码 段 选 项 ， 再 然后 是 }。 接 下 来 就 是 具体 的 RR 代码。 代码 段 的 结束 标志 是 `……。 
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20.4.1 代码 段 名 称 
我 们 可 以 赋予 代码 段 一 个 可 选 的 名 称 :“、、{fr by-name}。 这 样 做 有 以 下 3 个 优势 。 
使 用 脚本 编辑 器 左下 角 的 弹出 式 代码 浏览 菜单 ， 更 方便 浏览 特定 的 代码 段 。 





EO 2 = 
ch Untitled m 
Chunk 1: setup 
<| 
| R Markdown 
su 
z| Chunk 2: cars 
Including Plots 


» ## Chunk 3: pressure 


日 Untitled < 


可 以 使 得 代码 段 生成 的 图 形 具备 有 意义 的 名 称 ， 从 而 更 容易 在 其 他 地 方 使 用 。21.7.2 市 
将 更 加 深入 地 介绍 这 一 点 。 

° 你 可 以 建立 缓存 代码 段 的 网 络 ， 以 避免 每 次 运行 都 重新 调用 昂贵 的 计算 资源 。 以 下 内 容 
将 对 此 进行 更 多 介绍 。 


setup 这 个 代码 段 名 称 具 有 特殊 意义 。 当 处 于 笔记 本 模式 时 ， 名 称 为 setup 的 代码 段 会 在 
任何 其 他 代码 运行 前 自动 运行 一 次 。 


20.4.2 ”代码 段 选项 


可 以 使 用 选项 来 定制 代码 段 输出 ， 选 项 是 提供 给 代码 段 头 部 的 参数 。knitr 提供 了 差不多 60 
种 选项 ， 你 可 以 使 用 这 些 选 项 来 定制 自己 的 代码 段 。 接 下 来 将 介绍 儿 个 最 重要 的 代码 段 选 
项 ， 你 以 后 会 经 常用 到 这 些 选 项 。 可 以 在 http://yihui.name/knitr/options/ 中 找到 完整 的 选项 
列表 。 


以 下 是 最 重要 的 一 组 选项 ， 用 来 控制 代码 段 是 否 可 以 执行 ， 以 及 最 终 报告 中 包括 哪些 结果 。 


° eval = FALSE 禁止 对 代码 进行 求 值 。( 很 明显 ， 如 果 代 码 不 能 运行 的 话 ， 就 不 能 生成 什 
么 结果 。) 在 显示 示例 代码 或 不 通过 每 行 注释 禁用 大 段 代码 时 ， 这 个 选项 是 非常 有 用 的 。 

e include = FALSE 可 以 运行 代码 ， 但 不 会 在 最 终 文档 中 显示 代码 和 结果 。 如 果 不 想 让 
setup 代码 出 现在 报告 中 ， 就 可 以 使 用 这 个 选项 。 

e echo = FALSE 禁止 代码 出 现在 最 终 报 告 中 ， 但 不 会 禁止 结果 。 为 不 想 看 到 RR 代码 的 人 
们 编写 报告 时 ， 就 可 以 使 用 这 个 选项 。 

° message = FALSE 或 warning = FALSE 可 以 防止 消息 或 警告 出 现在 最 终 报 告 中 。 

e results = 'hide' 可 以 隐藏 文本 输出 ;fig.show = 'hide' 可 以 隐藏 图 形 输出 。 

e error = TRUE 在 代码 出 现 错误 时 仍然 可 以 生成 最 终 报告 。 在 报告 的 最 终 版 中 ， 我 们 很 少 
需要 包括 出 错 信 息 ， 但 在 调试 .Rmd 文件 时 ， 出 错 信 息 是 非常 有 用 的 。 如 果 使 用 R 进行 
教学 活动 ， 并 特意 想 要 包括 出 错 信 息 的 话 ， 这 个 选项 是 非常 有 用 的 。 如 果 使 用 默认 设置 
error = FALSE， 那 么 即使 只 有 一 个 错误 ， 文 档 生 成 也 会 失败 。 


下 表 总 结 了 每 个 选项 对 输出 的 具体 控制 。 
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运行 代码 ”显示 代码 ”输出 图形 


eval = FALSE X x x X X 
include = FALSE X X X X X 
echo = FALSE X 

results = "hide" x 

fig.show = "hide" x 

message = FALSE x 
warning = FALSE x 


20.4.3 ”表格 
默认 情况 下 ，R Markdown 输出 数据 框 和 和 矩阵 的 格式 与 我 们 在 控制 台中 看 到 的 相同 : 


mtcars[1:5, 1:10] 





办 > mpg cyl disp hp drat wt qsec vs am gear 
#> Mazda RX4 21:0 6 160 110 3.90 2.62 16.5 0 1 4 
#> Mazda RX4 Wag 21.0 6 160 110 3.90 2.88 17.0 0 4 
#> Datsun 710 22.8: 4 108 93 3.85 2.32 18.6 1 1 4 
#> Hornet 4 Drive 21.4 6 258 110 3.08 3.21 19.4 1 0 3 
#> Hornet Sportabout 18.7 8 360 175 3.15 3.44 17.0 0 0 3 

















如 果 更 喜欢 用 表格 来 显示 数据 ， 那 么 你 可 以 使 用 knitr::kable 函数 。 以 下 代码 可 以 生成 
表 20-1: 


knitr::kable( 
mtcars[1:5, ], 
caption = "A knitr kable." 


) 
表 20-1: knitr 表 格 


mpg cyl disp hp drat wt qsec vs am gear carb 


Mazda RX4 210 6 160 110 3.90 2.62 165 0 1 4 4 
Mazda RX4 Wag 210 6 160 110 3.90 2.88 170 0 1 4 4 
Datsun 710 228 4 108 93 3.85 2.32 186 1 1 4 ] 
Hornet 4 Drive 214 6 258 110 3.08 3.21 194 1 0 3 | 
Hornet Sportabout 18.7 8 360 175 3.15 344 170 0 0 3 2 





使 用 ?knitr::kable 阅读 相关 文档 ， 学 习 一 下 定制 表格 的 其 他 方式 。 如 果 想 要 进行 更 加 深 
入 的 定制 ， 可 以 学 习 一 下 xtable、stargazer、pander、tables 和 ascii 包 ， 每 个 包 都 提供 了 一 
套 根 据 R 代码 生成 格式 化 表格 的 工具 。 


同样 ， 很 多 选项 可 以 控制 在 最 终 报告 中 舱 入 图 形 的 方式 。21.7 市 将 继续 介绍 这 些 选项 。 


20.4.4 缓存 
一 般 来 说 ，R Markdown 在 每 次 生成 文档 时 都 是 完全 从 头 开始 的 。 这 对 于 文档 的 可 重复 性 
非常 重要 ， 因 为 这 样 可 以 确保 不 漏 掉 代码 中 的 每 一 步 重 要 计算 。 但 是 ， 如 果 有 些 计算 需要 
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花费 大 量 时 间 ， 那 么 每 次 重新 生成 文档 都 会 是 一 个 非常 痛苦 的 过 程 。 我 们 对 这 个 问题 的 解 
决 方案 是 使 用 cache = TRUE。 当 使 用 这 个 选项 时 ，R Markdown 会 将 代码 段 输出 保存 在 磁 
盘 上 一 个 具有 特殊 名 称 的 文件 中 。 在 此 后 的 运行 中 ，kanitr 会 检查 代码 是 否 进行 了 修改 ， 如 
果 没 有 修改 ， 则 继续 使 用 缓存 结果 。 

必须 谨慎 使 用 这 种 缓存 机 制 ， 因 为 knitr 在 默认 情况 下 只 检查 代码 ， 不 检查 代码 的 依赖 关 
系 。 例 如 ， 以 下 的 processed_data 代码 段 依赖 于 raw_data 代码 段 : 


``(r raw_data} 
rawdata <- readr::read_ csv("a_very_large file.csv") 




















``(r processed_data, cached = TRUE} 
processed data <- rawdata %>% 
filter(!is.na(import_var)) %>% 
mutate(new_variable = complicated_ transformation(x, y, z)) 


缓存 processed_data 代码 段 意味 着 ， 只 在 dplyr 管道 操作 被 修改 时 才 重 新 运行 代码 ， 但 如 
果 对 read_csv() 国 数 的 调用 被 修改 了 ，processed_data 是 不 会 重新 运行 的 。 为 了 解决 这 个 
问题 ， 可 以 设置 dependson 代码 段 选项 : 
``(r processed_data, cached = TRUE, dependson = "raw_data"} 
processed data <- rawdata %>% 
filter(!is.na(import_var)) %>% 
mutate(new_variable = complicated_ transformation(x, y, z)) 





dependson 应 该 包含 每 个 代码 段 的 一 个 字符 向 量 ， 其 中 包括 缓存 代码 段 依赖 的 所 有 代码 段 。 
只 要 knitr 检测 到 某 个 依赖 代码 段 被 修改 了 ， 就 会 重新 运行 缓存 代码 段 以 更 新 结果 


注意 ， 如 果 a_very_large_file.csv 文件 被 修改 了 ， 代 码 段 是 不 会 进行 更 新 的 ， 因 为 knitr 缓 
存 机 制 只 跟踪 .Rmd 文件 内 部 的 变化 。 如 果 想 要 跟踪 外 部 文件 的 变化 ， 可 以 使 用 cache. 
extra 选项 。 这 是 一 个 非常 霸道 的 R 表达 式 ， 只 要 其 内 容 发 生变 化 ， 缓 存 就 会 失效 。 我 们 
可 以 同时 使 用 file.info() 函数 ， 它 可 以 返回 大 量 关于 文件 的 信息 ， 其 中 包括 最 后 修改 的 
时 间 。 因 此 可 以 将 代码 修改 如 下 : 


``(r raw_data, cache.extra = file.info("a_very_large file.csv")} 
rawdata <- readr::read_ csv("a_ very_large file.csv") 





























因为 缓存 策略 会 逐渐 变 得 复杂 ， 所 以 应 该 定期 使 用 knitr::clean_cache() 命令 清除 所 有 


我 们 遵从 了 David Robinson 给 出 的 命名 代码 段 的 建议 ， 即 使 用 代码 段 生 成 的 主要 对 象 来 命 
名 代码 段 ， 这 样 可 以 使 dependson 设置 更 容易 理解 。 


20.4.5 全 局 选项 
当 越 来 越 多 地 使 用 knitr 时 ， 你 会 发 现 一 些 默认 的 代码 段 设 置 并 不 符合 你 的 需要 ， 因 此 想 要 
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修改 它们 。 你 可 以 在 代码 段 中 调用 knitr::opts_chunk$set() 国 数 来 修改 选项 。 例 如 ， 在 编 
写 书籍 和 教程 时 ， 我 们 会 设置 如 下 : 
knitr::opts_chunk$set( 

comment = "#>", 


collapse = TRUE 
) 


这 样 可 以 使 用 我 们 更 喜欢 的 注释 格式 ， 并 确保 代码 和 输出 能 够 紧密 地 组 织 在 一 起 。 另 一 方 
面 ， 如 果 想 要 准备 一 份 报告 ， 则 应 该 设置 如 下 : 
knitr::opts_chunk$set( 


echo = FALSE 
) 


这 样 可 以 默认 隐藏 代码 ，( 使 用 echo = TRUE) 只 显示 你 特意 想 展 示 出 来 的 代码 段 。 你 还 可 
以 设置 message = FALSE 和 warning = FALSE， 但 这 会 使 得 调试 变 得 更 加 困难 ， 因 为 你 在 最 
终 文档 中 看 不 到 任何 系统 消息 。 


20.4.6 ”内 联 代码 


Fi R (VII À. R Markdown 文档 的 另 一 种 方法 是 : 使 用 r 直接 将 代码 徐 入 文档 。 如 果 想 在 
文本 中 加 入 数据 属性 ， 那 么 这 种 方法 是 非常 奏效 的 。 例 如 ， 我 们 在 本 章 开 头 所 用 的 示例 文 
档 中 有 以 下 文本 。 


这 份 数 据 中 包含 了 r nrow(diamonds) 颗 钻 石 的 信息 。 其 中 只 有 r nrow(diamonds) 
- nrow(smaller) 颗 钻 石 大 于 2.5 克拉 。 其 余 钻 石 的 分 布 如 下 所 示 。 


当 生 成 最 终 报告 时 ，knitr 会 计算 出 R 代码 的 结果 ， 并 插入 文本 。 


这 份 数据 中 包含 了 53 940 颗 钻 石 的 信息 。 其 中 只 有 126 颗 钻 五大 于 2.5 克拉 。 其 
余 钻 五 的 分 布 如 下 所 示 。 


向 文本 中 插入 数值 时 ，format() 函数 非常 有 用 ， 你 可 以 使 用 这 个 函数 来 设置 digits 的 数 
值 ， 避 免 打 印 出 不 必要 的 小 数位 ， 还 可 以 设置 big.mark， 从 而 使 得 数值 更 加 易 读 。 我 们 经 
和 使 用 一 个 辅助 函数 来 同时 完成 这 两 种 设置 : 

comma <- function(x) format(x, digits = 2, big.mark = ",") 

comma(3452345) 

#> [1] "3;4252;345: 

comma( . 12358124331) 

#> [1] "0.12" 
































Uk 








20.4.7 练习 

(1) 为 本 章 开头 的 .Rmd 文件 添加 一 节 内 容 ， 研 究 钻 石 大 小 是 如 何 随 着 切割 、 颜 色 和 纯净 度 
的 不 同 而 变化 的 。 假 设 你 要 为 不 懂得 R 语言 的 人 撰写 一 份 报告 ， 不 要 在 每 个 代码 段 上 
设置 echo = FALSE， 而 是 设置 全 局 选项 。 
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(2) 从 https://github.com/hadley/r4ds/tree/master/rmarkdown 下 载 diamond-sizes.Rmd 文件 ， 为 
其 添加 一 市 内 容 ， 描 述 最 大 的 20 颗 钻石 ， 其 中 要 包括 一 个 能 显示 出 它们 最 重要 特性 的 
表格 。 


(3) 修改 diamond-sizes.Rmd 文件 ， 使 用 comma() 函数 生成 格式 美观 的 输出 ， 输 出 中 还 要 包 
括 大 于 2.5 克拉 的 钻石 的 百分比 。 


(4) 建立 一 个 代码 段 网 络 ， 其 中 d 依赖 于 <c 和 b，b 和 fc 都 依赖 于 a。 每 个 代码 段 都 输出 
Lubridate: :now()， 设 置 cache = TRUE， 并 验证 自己 对 缓存 机 制 的 理解 。 


20.5 #HE#E 


为 R Markdown 文件 排查 错误 是 比较 困难 的 ， 因 为 我 们 不 再 拥有 交互 的 及 语言 环境 了 ， 因 
此 需要 学 习 一 些 新 的 技巧 。 首 先 ， 我们 必须 尽力 在 交互 会 话 中 重 现 问 题 。 重 新 启动 R， 然 
后 执行 Run all chunks (可 以 使 用 Code 菜单 ， 在 Run Region 菜单 项 下 执行 Run All， 也 可 
以 使 用 组 合 键 Ctrl+Alt+R ) 。 如 果 你 运气 不 错 ， 就 可 以 重 现 问题 。 这 种 交互 方式 可 以 帮助 找 
出 问题 所 在 。 


如 果 这 样 行 不 通 ， 那 一 定 是 因为 你 的 交互 式 环境 和 及 Markdown 环境 之 间 有 差别 ， 你 应 该 
系统 地 检查 一 下 选项 设置 。 最 常见 的 差别 在 于 工作 目录 ，R Markdown 的 工作 目录 就 是 文 
件 所 在 的 目录 。 你 可 以 在 代码 段 中 加 入 getwd() 函数 ， 查 看 工作 目录 是 否 符合 预期 。 


接 下 来 ， 尽 力 思考 可 能 引起 问题 的 所 有 因素 。 你 需要 系统 地 检查 一 下 这 些 因 素 在 R 会 话 和 
R Markdown 会 话 中 是 否 完全 一 致 。 最 简单 的 做 法 就 是 在 引起 问题 的 代码 段 中 设置 error = 
TRUE， 然 后 使 用 print() 和 str() 国 数 检 查 这 些 因素 是 否 与 你 预想 的 一 致 。 


20.6 YAML 文 件 头 


通过 调整 YAML 文件 头 中 的 参数 ， 你 可 以 控制 很 多 其 他 的 “全 文档 ”设置 。 你 或 许 很 想 
知道 YAML 的 意义 ， 它 代表 的 是 仍 是 一 种 标记 语言 (yet another markup language), YAML 
设计 用 于 表示 容易 被 人 类 读 写 的 层次 化 数据 。R Markdown 使 用 YAML 来 控制 很 多 输出 细 
节 。 接 下 来 将 介绍 两 种 YAML 文件 头 : 文档 参数 和 参考 文献 。 


20.6.1 文档 参数 

R Markdown 文件 中 可 以 包含 在 生成 报告 时 进行 设置 的 一 个 或 多 个 参数 。 如 果 想 要 重新 生 
成 报告 ， 但 对 多 个 关键 输入 使 用 与 原来 不 同 的 值 ， 那 么 这 些 参数 就 非常 有 用 了 。 例 如 ， 你 
可 以 生成 不 同 部 门 的 销售 报告 、 不 同学 生 的 考试 结果 ， 等 等 。 如 果 想 要 声明 一 个 或 多 个 参 
数 ， 可 以 使 用 params 域 。 

以 下 示例 使 用 了 my_ctLass 参数 来 确定 展示 哪 一 类 汽车 : 





su 




























































































output: html_document 
params: 
my_class: "suv" 
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```(r setup, include = FALSE} 
library(ggplot2) 
library(dplyr) 


class <- mpg %>% filter(class == params$my_class) 


# Fuel economy for `r params$my_class`s 


```(r, message = FALSE} 
ggplot(class, aes(displ, hwy)) + 
geom_point() + 
geom_smooth(se = FALSE) 





正如 你 看 到 的 ， 在 代码 段 中 ， 参 数 设置 在 名 为 params 的 只 读 列表 中 。 
你 可 以 将 原子 向 量 直 接 写 在 YAML 文件 头 中 。 在 参数 值 前 面 加 一 个 !r 即 可 运行 任意 R < 
达 式 。 这 是 设置 日 期 /时 间 参 数 的 一 种 绝 好 方法 : 
params: 

start: !r lubridate::ymd("2015-01-01") 

snapshot: !r lubridate::ymd_hms("2015-01-01 12:30:00") 
在 RStudio 中 ， 你 可 以 点 击 Knit F PiK Æ% rB BJ Knit with Parameters 菜单 项 来 完成 设置 
参数 、 生 成 报告 和 预览 报告 等 工作 。 这 是 用 户 友好 型 的 一 个 步骤 。 你 可 以 通过 设置 文件 
头 中 的 其 他 选项 来 定制 对 话 框 ， 详 细 信 息 参见 https://rmarkdown.rstudio.com/developer_ 
parameterized Teports.html。 
另外 ,如果 需要 生成 多 个 这 种 带 参 数 的 报告 ,可 以 使 用 一 个 params 列表 来 调用 rmarkdown: : 
render() 国 数 : 



































rmarkdown: :render( 
"fuel-economy.Rmd", 
params = list(my_class = "suv" 


) 
这 个 函数 与 purrr::pwalk() 函数 组 合 使 用 时 功能 非常 强大 。 以 下 示例 为 mpg 数据 集中 的 每 
个 class 值 都 创建 了 一 份 报告 。 首 先 ， 我 们 创建 一 个 数据 框 ， 其 中 每 行 都 代表 一 类 汽车 ， 
并 给 出 了 报告 的 文件 名 filename 以 及 应 该 设 定 的 参数 params: 





reports <- tibble( 
class = unique(mpg$class), 
filename = stringr::str_c("fuel-economy-", class, ".html"), 


params = purrr::map(CLass，~ list(my_class = .)) 
) 
reports 
#> # A tibble: 7 x 3 
#> class filename params 
#> <chr> <chr> <list> 


#> 1 compact fuel-economy-compact.html <list [1]> 
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#> 2 midsize fuel-economy-midsize.html <list [1]- 
#> 3 SUV fuel-economy-suv.html <list [1]> 
#> 4 2seater fuel-economy-2seater.html <list [1]> 
#> 5 minivan fuel-economy-minivan.html <list [1]> 
#> 6 pickup fuel-economy-pickup.html <list [1]> 
办 > # ... with 1 more rows 


然后 我 们 将 列 名 与 render() 函数 的 参数 名 进行 匹配 ， 并 使 用 purrr 包 的 并 行 游 走 函数 为 每 
一 行 调用 一 次 render(): 


reports %>% 
select(output_file = filename, params) %>% 
purrr::pwalk(rmarkdown: :render, input = "fuel-economy.Rmd") 


20.6.2 ”参考 文献 与 引用 


pandoc 可 以 自动 生成 引用 和 各 种 风格 的 参考 文献 。 要 想 使 用 这 个 功能 ， 需 要 在 文件 头 中 的 
bibliography 域 中 设 定 一 个 参考 文献 文件 。 这 个 域 应 该 包含 一 个 从 .Rmd 文件 目录 到 参考 
文献 文件 目录 的 路 径 : 


bibliography: rmarkdown.bib 
你 可 以 使 用 多 种 常用 的 参考 文献 格式 ， 如 BibLaTeX、BibTeX、endnote 和 medline。 


要 想 在 .Rmd 文件 中 创建 一 个 引用 ， 你 可 以 使 用 一 个 由 @ 和 引用 标识 符 组 成 的 关键 词 ， 其 
中 引用 标识 符 来 自 于 参考 文献 文件 。 接 着 需要 将 引用 放 在 方 括号 中 。 以 下 是 一 些 示例 : 


Separate multiple citations with a `;`: 
Blah blah [@smith04; @doe99]. 





You can add arbitrary comments inside the square brackets: 
Blah blah [see @doe99, pp. 33-35; also @smith04, ch. 1]. 


Remove the square brackets to create an in-text citation: 
Qsmith04 says blah, or @smith04 [p. 33] says blah. 


Add a `-` before the citation to suppress the author's name: 
Smith says blah [-@smith04]. 


在 生成 最 终 文 件 时 ，R Markdown 会 创建 参考 文献 并 将 其 追加 到 文件 的 最 后 。 参 考 文献 中 
会 包含 来 自 于 参考 文献 文件 中 被 引用 的 所 有 文献 ， 但 不 会 包含 小 市 标题 。 因 此 ， 通 常 的 做 
法 是 在 文件 的 末尾 为 参考 文献 加 上 一 个 小 节 标 题 ， 如 # References 或 者 # Bibliography。 


你 可 以 在 cst 域 中 引用 一 个 CSL (citation style language， 引 用 样式 语言 ) 文件 来 改变 引用 
和 参考 文献 的 风格 : 


bibliography: rmarkdown.bib 
CSL: apa.csl 


对 于 参考 文献 域 ， 你 的 CSL 文件 应 该 包含 一 个 到 参考 文献 文件 的 路 径 。 在 这 个 示例 中 ， 我 
们 假设 CSL 文件 和 .Rmd 文件 位 于 同一 目录 下 。 你 可 以 在 http://github.com/citation-style- 
language/styles 中 找到 控制 常用 参考 文件 风格 的 CSL 样式 文件 。 
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207 更 多 学 习 资 源 


R Markdown 还 不 算 很 成 熟 ， 正 处 于 快速 发 展 阶段 。 如 果 想 要 关注 这 项 技术 的 最 新 发 展 ， 可 
以 访问 R Markdown 官方 网 址 。 


本 章 没 有 介绍 的 两 个 重要 主题 是 : 协同 工作 以 及 与 他 人 精确 沟通 自己 想法 的 具体 做 法 。 协 
同 工 作 是 现代 数据 科学 中 极其 重要 的 一 部 分 ， 使 用 像 Git 和 GitHub 这 样 的 版 本 控制 工具 可 
以 让 你 的 工作 变 得 更 加 轻松 。 以 下 推荐 了 学 习 Git 的 两 种 免费 资源 。 
“Happy Git with R”; 面向 R 语言 用 户 的 用 户 友 好 型 Git 与 GitHub 入 门 简介 ，Jenny Bryan 
著 。 这 本 书 有 免费 的 在 线 版 本 。 
。《R 包 开 发 》! 中 的 “Git 和 GitHub” 一 章 ，Hadley 著 。 你 也 可 以 在 线 免费 阅读 这 部 分 
内 容 。 
要 想 明 确 无 误 地 与 他 人 沟通 分 析 结 果 ， 应 该 使 用 何 种 写作 方法 与 写作 技巧 也 是 本 章 没 有 
讲 到 的 内 容 。 为 了 提高 写作 水 平 ， 我 们 强烈 推荐 你 要 么 阅读 一 下 Joseph M. Williams 和 
Joseph Bizup 所 车 的 Style: Lessons in Clarity， 要 么 阅读 一 下 George Gopen 所 车 的 The Sense 
of Structure: Writing from the Reader’s Perspective。 这 两 本 书 都 可 以 帮助 你 理解 句子 和 上 段落 
的 结构 ， 并 掌握 使 得 文章 更 加 清晰 易 读 的 方法 。( 这 两 本 书 都 非常 昂贵 ， 但 因为 很 多 英文 
课堂 都 使 用 这 两 本 书 作 为 教材 ， 所 以 市 面 上 有 大 量 的 便宜 二 手书 。) George Gopen 还 撰写 
了 很 多 关于 写作 的 文章 ， 虽 然 这 些 文章 的 目标 读者 是 律师 ， 但 几乎 所 有 内 容 都 适合 数据 科 



















































































注 1: 此 书 已 由 人 民 邮 电 出 版 社 出 版 ， 详 见 http://www.ituring.com.cn/book/1688。 一 一 编者 注 
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使 用 ggplot2 进 行 图 形 化 沟通 





21.1 简介 


第 5 章 中 介绍 了 使 用 图 形 进行 数据 探索 的 方法 。 在 制作 探索 性 图 形 时 ， 我 们 对 图 形 要 显 
示 哪 些 变量 已 经 了 然 于 心 。 我 们 出 于 某 种 目的 制作 了 一 幅 图 形 ， 快 速 地 对 其 进行 检视 ， 
然后 继续 下 一 幅 。 大 多 数 分 析 过 程 都 会 生成 几 十 或 几 百 幅 图 形 ， 其 中 大 部 分 都 会 被 立刻 
弃 之 不 用 。 


里 解 了 数据 后 ， 就 需要 与 人 们 沟通 我 们 的 想法 。 听 众 很 可 能 不 具备 我 们 所 拥有 的 背景 知 
只 ， 也 不 会 对 数据 投入 太 多 精力 。 为 了 帮助 人 们 快速 建立 一 个 比较 好 的 数据 思维 模型 我 
门 需要 付出 相当 大 的 努力 ， 尽 可 能 让 图 形 通俗 易 懂 。 在 本 章 中 ， 我 们 将 学 习 ggplot2 中 提供 
的 一 些 方法 来 完成 这 个 任务 。 

本 章 将 重点 介绍 创建 良好 图 形 所 需 的 方法 。 我 们 假设 你 已 经 明确 了 需求 ， 只 是 想 知道 如 何 
来 做 。 因 此 ， 强 烈 建议 你 在 学 习 本 章 的 同时 ， 再 阅读 一 本 比较 好 的 可 视 化 书籍 。 我 们 特别 
HAIK Albert Cairo 的 著作 The Truthful Art， 这 本 书 讲述 的 不 是 创建 可 视 化 图 形 的 技术 ， 而 是 
重点 介绍 在 创建 有 效 图 形 时 需要 考虑 的 因素 。 


准备 工作 

本 章 将 再 次 重点 介绍 ggplot2。 我 们 还 会 使 用 dplyr 包 的 一 些 功 能 来 进行 数据 处 理 ， 并 介绍 
ggplot2 的 几 个 扩展 包 ， 其 中 包括 ggrepel 和 viridis。 我 们 不 用 加 载 这 些 扩展 包 ， 而 是 选择 
使 用 : : 表示 法 显 式 地 引用 其 中 的 函数 ， 这 样 可 以 更 清楚 地 分 辨 出 哪些 函数 是 ggplot2 的 内 
置 函 数 ， 哪 些 函 数 来 自 于 其 他 扩展 包 。 别 忘 了 ， 如 果 还 没有 安装 这 些 扩展 包 ， 那 么 你 需要 
使 用 install.packages() 国 数 进行 安装 。 


library(tidyverse) 
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21.2 标签 








要 想 将 探索 性 图 形 转换 为 解释 性 图 形 ， 最 容易 的 方法 就 是 加 上 一 些 合适 的 标签 。 我 们 可 以 




















使 用 Labs() 函数 来 添加 标签 ， 以 下 示例 为 图 形 添 加 了 一 个 标题 : 


ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
geom_smooth(se = FALSE) + 
Labs( 

title = paste( 
"Fuel efficiency generally decreases with" 
"engine size" 





) 


Fuel efficiency generally decreases with engine size 


40- 
class 


2seater 
compact 
midsize 
minivan 
pickup 


subcompact 
20- 


suv 





displ 


使 用 图 形 标题 的 目的 是 概括 主要 成 果 。 尽 量 不 要 使 用 那些 只 对 图 形 进行 描述 的 标题 ， 如 
“发 动机 排 量 与 燃油 效率 散 点 图 ”。 








如 果 想 要 添加 更 多 文本 ，ggplot2 2.2.0 及 其 更 高 版 本 ( 当 你 读 到 本 书 时 ， 更 高 版 本 
经 可 用 了 ) 中 还 提供 了 另外 2 个 非常 实用 的 标签 。 


。 subtitle 可 以 在 标题 下 以 更 小 的 字体 添加 更 多 附加 信息 。 
。 caption 可 以 在 图 形 右 下 角 添加 文本 ， 常 用 于 描述 数据 来 源 : 


ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
geom_smooth(se = FALSE) + 
Labs( 

title = paste( 
"Fuel efficiency generally decreases with" 
"engine size", 

) 

subtitle = paste( 
"Two seaters (sports cars) are an exception" 
"because of their light weight", 

) 

caption = "Data from fueleconomy.gov" 


) 
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Fuel efficiency generally decreases with engine Size 
Two seaters (Sports cars) are an exception because of their light weight 
° 
40- class 
® 2seater 
® compact 
® midsize 


® minivan 






® pickup 
20= © subcompact 


® suv 


displ 
Data from fueleconomy.gov 


我 们 还 可 以 使 用 Labs() ARRE RARA E ARR KE ERRA E JÉ 
细 的 描述 并 加 上 单位 ， 是 一 种 非常 好 的 做 法 : 


ggpLot(mpg，aes(dispL，hwy)) + 
geom_point(aes(color = class)) + 
geom_smooth(se = FALSE) + 
Labs( 

x = "Engine displacement (L)", 
y = "Highway fuel economy (mpg)", 
colour = "Car type" 


) 




















40- 
Car type 


L ° 

E ° 

= ° ® 2seater 
Ë ° 

£ ® compact 
Š 30- ® midsize 
O 

2 ® minivan 
© 

P ® pickup 
ç 

z ® subcompact 
£ 20- 

D ® suv 

E 





Engine displacement (L) 





还 可 以 在 标题 中 使 用 数学 公式 代替 字符 串 文 本 ， 用 quote) 函数 代替 ""， 再 使 用 ?pLotmath 
命令 查看 可 用 选项 : 


df <- tibble( 
x = Funif(10), 
y = runif(10) 


ggplot(df, aes(x, y)) + 





geom_point() + 
labs( 
x 
y 
) 


quote(sum(x[i] ^ 2, i == 1, n)), 
quote(aLpha + beta + frac(delta, theta)) 


1.00- = 


0.25- 


练习 


(1) 使 用 燃油 效率 数据 创建 一 幅 图 形 ， 自 定义 title, subtitle, caption. x. y 和 colour 


(2) geom_smooth() 函数 具有 一 定 的 误导 性 ， 因 为 对 于 大 排 量 引 擎 来 说 ， 由 于 包括 了 车 身 重 
量 很 轻 的 大 引擎 跑车 ，hwy 数据 有 些 偏 高 。 选 择 合适 的 建 模 方法 拟 合 一 个 更 好 的 模型 ， 
并 用 图 形 表示 出 来 。 


(3) 选择 一 个 你 以 前 制作 的 探索 性 图 形 ， 添 加 各 种 信息 丰富 的 标题 ， 以 便 更 易 理 解 。 
21.3 注释 
除了 为 图 形 中 的 主要 部 分 添加 标签 ， 我 们 还 经 常 需要 为 单个 观测 或 分 组 观测 添加 标签 。 可 


供 我 们 使 用 的 第 一 个 工具 是 geom_text() 函数 ， 其 用 法 基本 与 geom_point() 函数 相同 ,但 
具有 一 个 额外 的 图 形 属性 : Label。 这 使 得 我 们 可 以 向 图 形 中 添加 文本 标签 。 


可 以 使 用 2 种 方式 来 提供 标签 。 首 先 ， 可 以 使 用 tibble。 以 下 图 形 的 实际 用 处 不 大 ,但 可 
以 说 明 一 种 非常 有 用 的 方法 : 先 使 用 dplyr 选取 出 每 类 汽车 中 效率 最 高 的 型 号 ， 然 后 在 图 
形 中 标记 出 来 : 


best_in_class <- mpg %>% 
group_by(class) %>% 
filter(row_number(desc(hwy)) == 1) 
ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
geom text(aes(label = model), data = best in class) 
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40- 
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K| K4f t, ILUPn2e A B4EJe r S, u pea pastu, IEA Blai y ua 
换 用 geom_label() 函数 ， 它 可 以 为 文本 加 上 方 框 。 我 们 还 可 以 使 用 nudge_y 参数 让 标签 位 








于 相应 数据 点 的 正 上 方 : 


ggpLot(mpg，aes(dispL，hwy)) + 
geom_point(aes(color = class)) + 
geom_label( 

aes(label = model), 
data = best_in_class, 






nudge_y = 2, 
alpha = 0.5 
new-beetle 
° 
J °. 
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displ 


这 样 效果 更 好 一 些 。 但 如 果 仔 细 查 看 左上 角 ， 你 就 会 发 现 有 2 个 标签 几乎 完全 重合 。 发 生 
这 种 情况 的 原因 古 ， 对 于 小 型 车 和 微型 车 中 燃油 效率 最 高 的 汽车 来 说 ， 它 们 的 公路 里 程 数 
和 引擎 排 量 是 完全 相同 的 。 我 们 无 法 通过 对 每 个 标签 进行 转换 来 解决 这 个 问题 ， 但 是 可 
以 使 用 由 Kamil Slowikowski 开发 的 ggrepel 包 。 这 个 包 非 常 有 用 ， 可 以 自动 调整 标签 的 位 
a, hoi F aB ë; 
ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
geom_point(size = 3, shape = 1, data = best_in_class) + 
ggrepel::geom_label_repel( 
aes(label = model), 
data = best_in_class 








®- new beetle 
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displ 
注意 ， 我 们 还 做 了 另 一 项 很 贴心 的 改动 : 添加 了 一 个 图 层 ， 用 较 大 的 空心 圆 来 强调 添加 了 
标签 的 数据 点 。 
有 了 时 你 可 以 通过 同样 的 方式 将 标签 直接 放 在 图 形 上 ， 以 替代 图 例 。 这 种 方式 不 适合 本 示例 
中 的 图 形 ， 但 有 时 效果 还 是 不 错 的 。(theme(Legend.positon = "none") 可 以 不 显示 图 例 ， 
稍 后 我 们 将 进行 更 多 讨论 。) 
class_avg <- mpg %>% 
group_by(class) %>% 
summarize( 
displ = median(displ), 
hwy = median(hwy) 
ggplot(mpg, aes(displ, hwy, color = class)) + 
ggrepel::geom_label_repel(aes(label = class), 
data = class_avg, 
size = 6, 
label.size = 0, 
segment.color = NA 
) + 
geom_point() + 
theme(legend.position = "none" 
40- = 
s eu eq 3 
E compadmidsiae; ; 
subcomppef ° e ° le. 。 ° 2seater 。 
“miniva 。 ° n: 
a a ns 
+ Rickie +. 
2 3 4 5 6 7 
displ 
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其 次 ， 即 使 只 想 向 图 中 添加 唯一 的 一 个 标签 ， 也 需要 创建 一 个 数据 框 。 通 常 来 说 ， 你 会 希 
望 标签 在 图 的 角落 ， 因 此 ， 应 该 使 用 summarize() 国 数 计算 出 x fl y 的 最 大 值 ， 并 保存 在 
数据 框 中 : 


label <- mpg %>% 
summarize( 
displ = max(displ), 
hwy = max(hwy), 
label = paste( 
"Increasing engine size is \nrelated to" 
"decreasing fuel economy." 
) 
) 

















ggplot(mpg, aes(displ, hwy)) + 
geom_point() + 
geom_text( 
aes(label = label), 
data = label, 





vjust = "top", 
hjust = "right" 
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° 
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°°. e. 
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displ 


如 果 想 让 标签 紧 贴 着 图 形 的 边界 ， 那 么 你 可 以 使 用 +Inf 和 -Inf 值 。 这 样 我 们 就 无 须 再 从 
mpg 数据 集中 计算 位 置 了 ， 因 此 可 以 使 用 tibble() 函数 直接 创建 数据 框 : 


label <- tibble( 
displ = Inf, 
hwy = Inf, 
label = paste( 
"Increasing engine size is \nrelated to" 
"decreasing fuel economy." 
) 
) 





























W 





ggplot(mpg, aes(displ, hwy)) + 
geom_point() + 
geom_text( 
aes(label = label), 
data = label, 
V just = "fop"; 
hijust = “right” 





Increasing engine size is 
related to decreasing fuel economy. 


hwy 
8 
° °°. 
°° °° ooee 
e ee... 
eo o 
@ oo ooo 
O0000090 oo 


displ 





wrap() 国 数 来 自动 换行 ， 此 时 需要 给 出 每 行 的 字符 数 : 


"Increasing engine size related to decreasing fuel economy." %>% 
stringr::str_wrap(width = 40) %>% 
writeLines() 

#> Increasing engine size is related to 

#> decreasing fuel econony. 





在 这 些 示 例 中 ， 我 们 使 用 "\n" 手动 为 标签 文本 换行 。 另 一 种 方法 是 使 用 stringr::str 


注意 ，hjust 和 vjust 是 用 于 控制 标签 的 对 齐 方式 。 图 21-1 给 出 了 所 有 9 种 可 能 的 组 合 














1.00- (just = 'left' hjust = ”center hjust = right? 
vjust = 'top' vjust = 'top' vjust = 'top' 
0.75- 
Be hjust = 'left' hjust = 'center' hjust = right 
I vjust = 'center' vjust = 'center' vjust = 'center' 
0.25- 
hjust = 'left' hjust = 'center' hjust = 'right' 
000- Mjust = 'bottom' vjust ssbottom' — vjust = bottom; 
0.00 0.25 0.50 0.75 1.00 











图 21-1: hjust 和 vjust 的 所 有 9 种 组 合 





记 住 ， 除 了 geom_text(), ggplot2 中 还 有 很 多 其 他 函数 可 以 在 图 形 中 添加 注释 ， 具体 如 下 。 
。 可 以 使 用 geom_hline() 和 geom_vline() 函数 添加 参考 线 。 我 们 经 常 使 用 加 粗 (size = 2) 














和 白色 (color = white) 的 直线 作为 参考 线 ， 并 将 它们 绘制 在 基本 数据 层 的 下 钙 








lo JX 





样 的 参考 线 既 清晰 可 见 ， 又 不 至 于 喧 宾 夺 主 ， 影 响 我 们 查看 数据 。 





。 可 以 使 用 geom_rect() 函数 在 我 们 感 兴趣 的 数据 点 周围 绘制 一 个 矩形 。 甜 形 的 边界 由 医 





形 属性 xmin、xmax、ymin 和 ymax 确定 。 














。 可 以 使 用 geom_segment() 国 数 及 arrow 参数 绘制 箭头 ， 指 向 需要 关注 的 数据 点 。 使 用 图 


形 属性 x 和 y 来 定义 开始 位 置 ， 使 用 xend 和 yend 来 定义 结束 位 置 。 


使 用 这 些 技术 的 唯一 限制 就 是 你 的 想象 力 以 及 调整 注释 位 置 让 图 形 更 美观 所 需要 的 耐心 ) ! 
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练习 

(1) 使 用 geom_text() 国 数 和 无 穷 大 参数 值 将 文本 标签 放置 在 图 形 的 4 个 角落 。 

(2) 阅读 annotate() 国 数 的 文档 。 不 创建 tibble 的 情况 下 ， 如 何 使 用 这 个 函数 为 图 形 添加 一 
个 文本 标签 ? 

(3) 使 用 geom_text() 创建 的 标签 与 分 面 是 如 何 相互 影响 的 ?如 何在 一 个 分 面 中 添加 标签 ? 
如 何在 每 个 分 面 中 添加 不 同 标 签 ” (提示 : 思考 一 下 基础 数据 。) 


(4) geom_label() 国 数 的 哪个 参数 可 以 控制 背景 框 的 外 观 ? 


(5) arrow() 国 数 的 4 个 参数 是 什么 ?它们 有 什么 作用 ? 创建 一 组 图 形 来 展示 这 几 个 参数 中 
最 重要 的 几 个 选项 。 


21.4 WE 


使 得 图 表 更 适合 沟通 的 第 三 种 方法 是 调整 标 度 。 标 度 控 制 着 从 数据 值 到 图 形 属性 的 映射 ， 
它 可 以 将 数据 转换 为 视觉 上 可 以 感知 的 东西 。 一 般 情 况 下 ，ggplot2 会 自动 向 图 表 中 添加 标 
度 。 例 如 ， 如 果 输 入 以 下 代码 : 


ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) 


ggplot2 会 自动 在 后 台 为 代码 添加 默认 标 度 : 


ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
scale x_continuous() + 
scale_y_continuous() + 
scale_color_discrete() 


注意 标 度 的 命名 模式 ，scale_ 后 面 是 图 形 属性 的 名 称 ， 然 后 是 _， 再 然后 是 标 度 的 名 称 。 
默认 情况 下 ， 标 度 是 以 变量 最 可 能 的 类 型 来 命名 的 : 连续 型 、 离 散 型 、 日 期 时 间 型 或 日 期 
型 。 还 有 很 多 非 默认 标 度 ， 我 们 会 在 后 面 的 内 容 中 进行 介绍 。 

默认 标 度 是 精心 选择 的 ， 适 合 多 种 输入 。 但 基于 以 下 两 种 原因 ， 你 可 以 不 使 用 默认 标 度 。 


。 你 或 许 要 对 默认 标 度 的 一 些 参数 进行 调整 。 例 如 ， 当 想 要 修改 坐标 轴 刻 度 或 图 例 中 的 项 
目标 签 时 ， 就 需要 进行 这 些 调整 。 

。 你 或 许 想 要 整体 替换 默认 标 度 ， 从 而 使 用 一 种 完全 不 同 的 算法 。 因 为 你 对 数据 更 加 了 解 ， 
所 以 使 用 与 默认 方式 不 同 的 标 度 通常 能 达到 更 好 的 效果 。 


21.4.1 ”坐标 轴 刻 度 与 图 例 项 目 


影响 坐标 轴 刻 度 与 图 例 项 目 外 观 的 主要 参数 有 两 个 :breaks 和 Labels。breaks 控制 坐标 轴 
刻度 的 位 置 ， 以 及 与 图 例 项 目 相 关 的 数值 显示 。Labets 控制 与 每 个 坐标 轴 刻 度 或 图 例 项 目 
相关 的 文本 标签 。breaks 的 最 常见 用 途 是 替换 默认 的 刻度 : 
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ggplot(mpg, aes(displ, hwy)) + 
geom_point() + 
scale_y_continuous(breaks = seq(15, 40, by = 5)) 


Š 3 4 5 6 7 
displ 
你 可 以 用 同样 的 方式 来 使 用 labels (5 breaks 长 度 相 同 的 字符 向 量 ) 。 你 还 可 以 将 其 设置 
为 NULL， 这 样 可 以 不 显示 刻度 标签 ， 对 于 地 图 或 不 适合 展示 数值 的 图 表 来 说 ， 这 种 方式 是 
非常 有 用 的 : 
ggplot(mpg, aes(displ, hwy)) + 
geom point() + 


scale x_continuous(labels = NULL) + 
scale_y_continuous(labels = NULL) 











hwy 
Oooeoeee 


"gispl 
你 还 可 以 使 用 breaks 和 labels 控制 图 例 的 外 观 。 坐 标 轴 和 图 例 统称 为 引导 元 素 。 坐 标 轴 用 
于 表示 x 和 y 图 形 属性 ， 图 例 则 用 于 表示 其 他 的 引导 性 信息 。 
需要 使 用 breaks 的 另 一 种 情况 是 ， 数 据点 相对 较 少 ， 而 你 又 想 要 强调 观测 的 确切 位 置 。 例 
如 ， 以 下 图 形 展示 了 每 位 美国 总 统 任 期 的 开始 时 间 和 结束 时 间 : 
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presidential %>% 
mutate(id = 33 + row_number()) %>% 
ggplot(aes(start, id)) + 
geom point() + 
geom_segment(aes(xend = end, yend = id)) + 
scale_x_date( 
NULL, 
breaks = presidential$start, 
date_labels = "'%y" 


) 
i 
g 
42- e 
ii 
|| 
= 39 证 
— 
1 人 
36- e 一 一 
e— 
g— 
'53 6163 '69 7477 ‘81 '89 93 '01 09 


注意 ， 对 于 日 期 型 和 日 期 时 间 型 标 度 来 说 ， 刻 度 和 标签 的 格式 有 一 些 不 同 。 


e date_labels 接受 一 个 格式 说 明 ， 说 明 的 形式 与 parse_datetime() 函数 中 的 相同 。 
。 date_breaks (这 个 示例 中 没有 出 现 ) 则 使 用 类 似 “2 天 ”或 “1 个 月 ”这 样 的 字符 串 。 


21.4.2 图例 布局 

breaks 和 labels 最 常用 于 调整 坐标 轴 。 然 而 ， 它 们 也 可 以 用 于 调整 图 例 ， 我 们 再 介绍 几 
种 你 很 可 能 会 用 到 的 技术 。 

如 果 要 控制 图 例 的 整体 位 置 ， 你 需要 使 用 theme() 函数 进行 设置 。 本 章 末 尾 将 介绍 关于 
主题 的 知识 ， 简 而 言 之 ， 主 题 的 作用 就 是 控制 图 形 中 与 数据 无 关 的 部 分 。 主 题 设置 中 的 
Legend.position 可 以 控制 图 例 的 位 置 : 


base <- ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) 






































base + theme(legend.position = "left") 

base + theme(legend.position = "top") 

base + theme(legend.position = "bottom") 

base + theme(legend.position = "right") # 默认 设置 
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你 还 可 以 使 用 legend.positon = "none" 来 取消 整个 图 例 的 显示 。 


要 想 控制 单个 图 例 的 显示 ， 可 以 配合 guide_legend() #K guide _colorbar() 国 数 来 使 用 
guides() 国 数 。 在 以 下 示例 中 ， 我 们 给 出 了 两 个 重要 设置 : 使 用 nrow 设 定 图 例 项 目的 
行 数 ， 并 覆盖 一 个 图 形 属 性 ， 以 便 数据 点 更 大 一 些 。 如 果 想 要 在 一 张 图 表 上 使 用 较 低 的 
alpha 值 显 示 多 个 数据 点 ， 那 么 这 些 设置 尤为 重要 : 


ggpLot(mpg，aes(dispL，hwy)) + 








geom_point(aes(color = class)) + 
geom_smooth(se = FALSE) + 
theme(legend.position = "bottom") + 
guides( 
color = guide_legend( 
nrow = 1, 
override.aes = list(size = 4) 
) 
) 


办 > `geom_ smooth()` using method = 'loess' 





使 用 ggplot2 进 行 图 形 化 沟通 | 319 
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class @ 2seater @ compact @ midsize @ minivan @ pickup ® subcompact ® suv 


21.4.3 WEBI 


除了 对 标 度 的 细节 略 做 调整 ， 我 们 还 可 以 替换 整体 标 度 。 最 经 常 进行 替换 的 两 种 标 度 是 连 
续 型 位 置 标 度 和 颜色 标 度 。 好 在 其 中 原理 适用 于 其 他 图 形 属性 ， 因 此 一 旦 掌握 了 位 置 和 颜 
色 的 替换 方法 ， 就 可 以 迅速 学 会 其 他 各 种 标 度 替 换 。 

绘制 出 变量 转换 是 非常 有 用 的 。 例 如 ， 正 如 我 们 在 18.2 节 中 看 到 的 ， 如 果 对 carat 和 price 
进行 对 数 转换 ， 就 更 容易 看 出 二 者 间 的 确切 关系 


ggplot(diamonds, aes(carat, price)) + 
geom_bin2d() 
































ggplot(diamonds, aes(log10(carat), log10(price))) + 
geom_bin2d() 


20000- 
15000- 


8 10000- 
È 
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ad 
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3 ao 
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但 这 种 变换 的 缺点 是 ， 因 为 坐标 轴 是 以 转换 后 的 值 来 标记 的 ， 所 以 很 难 解释 图 表 。 除 了 在 





图 形 属性 映射 中 进行 转换 ， 我 们 还 可 以 使 用 标 度 进行 转换 。 二 者 的 视觉 效果 是 一 样 的 ， 只 
是 进行 了 标 度 变换 后 ， 坐 标 轴 还 是 以 原始 数据 标 度 进行 标记 的 : 
ggpLot(diamonds，aes(carat，price)) + 
geom_bin2d() + 
scale_x_log10() + 
scale_y_log10() 
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经 常 需要 修改 定制 的 另 一 种 标 度 是 颜色 。 默 认 分 类 标 度 以 一 种 非常 均匀 的 方式 在 色 环 上 选 
择 颜 色 。 常 用 的 另 一 种 配色 方式 是 使 用 ColorBrewer 标 度 ， 经 过 手工 调整 后 ， 这 种 方式 更 
适合 那些 有 色盲 症 的 人 。 以 下 的 两 幅 图 非常 相似 ， 但 是 右边 图 中 的 红色 和 绿色 的 对 比 更 加 
强烈 ， 即 使 是 患 有 红 绿 色盲 症 的 人 也 可 以 区 别 出 来 : 


ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = drv)) 








ggplot(mpg, aes(displ, hwy)) + 
geom point(aes(color = drv)) + 
scale_color_brewer(palette = "Set1") 





别 小 看 简单 的 技术 。 如 果 只 有 很 少儿 种 颜色 ， 那 么 你 完全 可 以 再 添加 一 种 形状 上 映射。 虽然 
有 些 元 余 ， 但 这 样 可 以 确保 图 表 在 黑白 方式 下 也 是 可 以 为 人 所 理解 的 : 
ggplot(mpg, aes(displ, hwy)) + 


geom point(aes(color = drv, shape = drv)) + 
scale_color_brewer(palette = "Set1") 
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ColorBrewer 标 度 的 在 线 文档 地 址 是 http://colorbrew2.org， 在 R 中 可 以 通过 RColorBrewer 
包 实 现 ， 这 个 包 的 作者 是 Erich Neuwirth, K| 21-2 给 出 了 所 有 调 色 板 的 完整 列表 。 如 果 分 
类 变量 的 值 是 有 顺序 的 或 者 有 一 个 “中 间 值 ”>， 那 么 上 面 的 顺序 调 色 板 和 下 面 的 发 散 调 色 








板 就 尤为 重要 。 在 使 用 cut() 函数 将 连续 型 变量 转换 为 分 类 变量 时 ， 这 两 种 情况 





常 出 现 。 
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21-2: ColorBrewer 中 的 全 部 配色 方案 
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如 果 预 先 确定 了 数据 值 和 颜色 间 的 映射 ， 那 么 可 以 使 用 scale_color_manual() 函数 。 例 
如 ， 我 们 可 以 将 总 统 的 党 派 映射 到 颜色 ， 使 用 红色 表示 共和 党 ， 蓝 色 表 示 民 主 党 : 


presidential %>% 
mutate(id = 33 + row_number()) %>% 
ggplot(aes(start, id, color = party)) + 
geom_point() + 
geom_segment(aes(xend = end, yend = id)) + 
scale_colour_manual( 


values = c(Republican = "red", Democratic = "blue") 
. 
证 = 一- 
42 — 
= 
g party 
— 39- = -@- Democratic 
-@- Republican 
š 
ë— 
36- — 
g 
—— q: 
1960 1980 2000 2020 
start 


对 于 连续 的 颜色 标 度 ， 我 们 可 以 使 用 内 置 函数 scale_color_gradient() 或 scale_fill_ 
gradient() 来 表示 。 如 果 想 要 表示 发 散 性 的 颜色 标 度 ， 可 以 使 用 scale_color_gradient2() 
国 数 ， 它 可 以 使 用 正 数 和 负数 来 表示 不 同 的 颜色 。 如 果 想 要 区 分 出 位 于 平均 值 以 上 和 以 下 
的 点 ， 那 么 这 个 函数 是 非常 合适 的 。 

另 一 个 可 以 选用 的 函数 是 由 viridis 包 提 供 的 scale_color_viridis()， 它 是 对 ColorBrewer 
分 类 标 度 的 一 种 连续 模拟 ， 包 作者 Nathaniel Smith 和 Stéfan van der Walt 精心 设计 了 一 种 有 具 
有 优秀 感知 特性 的 连续 型 颜色 模式 。 以 下 是 来 自 于 viridis 使 用 指南 中 的 一 个 示例 : 


df <- tibble( 
x = rnorm(10000), 
y = rnorm(10000) 


) 
ggplot(df, aes(x, y)) + 
geom_hex() + 
coord_fixed() 
#> Loading required package: methods 


ggplot(df, aes(x, y)) + 
geom_hex() + 
viridis::scale_fill_viridis() + 
coord_fixed() 
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注意 ， 所 有 的 颜色 标 度 都 可 以 分 为 两 类 : scale_color_x() 对 应 于 color 图 形 属性 ，scale_ 
fill_x() 则 对 应 于 fiul 图 形 属性 (颜色 标 度 既 可 以 使 用 美式 英语 ， 也 可 以 使 用 英 式 英语 )。 


21.4.4 ”练习 
(1) HFAA TRA ARNAR? 
ggplot(df, aes(x, y)) + 
geom_hex() + 


scale_color_gradient(low = "white", high = "red") + 
coord_fixed() 


(2) 每 个 标 度 函 数 中 的 第 一 个 参数 的 意义 是 什么 ?与 Labs() 国 数 相 比 有 什么 不 同 ? 
(3) 按照 以 下 要 求 修改 presidential 图 形 的 显示 。 





a. 组 合 使 用 前 面 介绍 过 的 两 类 颜色 标 度 进行 改进 。 
b. 美化 y 轴 的 显示 。 

c. 使 用 总 统 的 姓名 标注 每 个 图 形 项 目 。 

d. 添加 各 种 说 明 性 标签 。 

e. 每 隔 4 年 添加 一 个 刻度 线 (这 比 想 象 的 要 难 ! )。 


(4) 使 用 override.aes 让 下 图 中 的 图 例 更 加 一 目 了 然 。 


ggplot(diamonds, aes(carat, price)) + 
geom_ point(aes(color = cut), alpha = 1/20) 





cut 
Fair 
Good 
Very Good 
Premium 


Ideal 
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21.5 缩放 


控制 图 形 范 围 的 方法 有 3 种 : 

。 调整 绘图 所 用 数据 ， 

° 设置 标 度 范围 

° 在 coord_cartesian() 国 数 中 设置 xLim 和 ylim 参数 值 。 

如 果 想 要 放大 图 形 的 一 片区 域 ， 最 好 使 用 coord_cartesian() 国 数 。 比 较 以 下 这 两 个 


ggplot(mpg, mapping = aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
geom_smooth() + 
coord_cartesian(xlim = c(5, 7), ylim = c(10, 30)) 


























mpg %>% 
filter(displ >= 5, displ <= 7, hwy >= 10, hwy <= 30) %>% 
ggplot(aes(displ, hwy)) + 
geom point(aes(color = class)) + 
geom_smooth() 
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图 形 : 


你 也 可 以 设置 单个 标 度 的 范围 。 缩 小 标 度 范围 的 效果 基本 等 同 于 对 数据 取 子 集 。 如 果 想 要 
扩大 图 形 范围 ， 比 如 在 不 同 图 形 间 使 用 相同 的 标 度 ， 那 么 最 好 通过 设置 标 度 范 围 来 实现 。 
举例 来 涪 ， 如 果 提 取 两 种 不 同类 型 汽车 的 数据 ， 并 想 分 别 绘制 出 来 ， 但 因为 这 两 份 数据 的 












































3 种 标 度 (x 轴 、y 轴 和 颜色 图 形 属 性 ) 范围 都 不 一 样 ， 所 以 很 难 进行 比较 : 


suv <- mpg %>% filter(class == "suv") 
compact <- mpg %>% filter(class == "compact") 








ggplot(suv, aes(displ, hwy, color = drv)) + 
geom_point() 


ggplot(compact, aes(displ, hwy, color = drv)) + 
geom_point() 
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drv drv 
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解决 这 个 问题 的 一 种 方法 是 ， 先 使 用 全 部 数据 找 出 标 度 的 Limits， 然 后 在 两 张 图 形 中 使 用 
同样 的 标 度 : 
x_scale <- scale x_continuous(limits = range(mpg$displ)) 


y_scale <- scale y_continuous(limits = range(mpg$hwy)) 
col_scale <- scale color_discrete(limits = unique(mpg$drv)) 





ggplot(suv, aes(displ, hwy, color = drv)) + 
geom point() + 
x_scale + 
y_scale + 
col_scale 


ggplot(compact, aes(displ, hwy, color = drv)) + 
geom point() + 


x_scale + 
y_scale + 
col_scale 
° 
40- 40- 
° 
drv a drv 
> 30 e f > 30 中 := ° f 
三 i e4 Ë sa . 4 


20- ° 203 


对 于 这 个 特定 的 示例 ， 我 们 可 以 简单 地 使 用 分 面 来 解决 ， 但 以 上 方法 适用 范围 更 广 ， 例 
如 ， 可 以 在 报告 中 加 入 横 跨 多 页 的 图 形 。 


21.6 主题 


最 后 ， 我 们 还 可 以 使 用 主题 来 定制 图 形 中 的 非 数据 元 素 : 


ggplot(mpg, aes(displ, hwy)) + 
geom_point(aes(color = class)) + 
geom_smooth(se = FALSE) + 
theme_bw() 
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ggplot2 默认 可 以 使 用 8 种 主题 ， 如 图 21-3 所 示 。 在 Jeffrey Arnold 开发 的 ggthemes 扩展 包 











(https://github.com/jrnold/ggthemes) 中 ， 还 可 以 使 用 更 多 主题 。 





+ 


主题 函数 可 以 改变 图 表 的 外 观 



































F theme_bw() theme_light() 
i 带 网 格 线 的 白色 浅 色 坐 标 轴 和 网 
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| o 
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theme_classic() 

经 典 主 题 ， 只 有 
坐标 轴 ， 没 有 网 
格 线 














theme_linedraw() 


只 有 黑色 网 格 线 




















theme_minimal() 
极 简 主 题 ， 无 背 
EES 
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theme_dark() 
暗色 背景 ， 用 于 















































对 比 I 
theme_gray() theme_void() 
a 灰色 背景 (默认 空白 主题 ， 只 显 
主题 ) 示 几 何 对 象 
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21-3: ggplot2 内 置 的 8 种 主题 


很 多 人 会 感到 许 异 ， 为 什么 默认 主题 要 使 用 灰色 背景 。 这 是 有 意 为 之 ， 因 为 这 样 可 以 在 网 





格 线 可 见 的 情况 下 更 加 突出 数据 。 和 白色 网 格 线 既 是 可 见 的 〈 这 非常 重要 ， 








因为 它们 非常 有 





助 于 位 置 判定 )， 又 对 视觉 没有 什么 严重 影响 ， 我 们 完全 可 以 对 其 视而不见 。 图 表 的 灰色 
背景 不 像 白色 背景 那么 突 元 ， 与 文本 印刷 颜色 非常 相近 ， 保 证 了 图 形 与 文档 其 他 部 分 浑然 
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一 体 。 最 后 ， 灰 色 背 景 可 以 创建 一 片 连续 的 颜色 区 域 ， 使 得 图 形成 为 形象 鲜明 的 一 个 独立 
视觉 实体 。 

我 们 还 可 以 控制 每 种 主题 中 的 独立 成 分 ， 比 如 y 轴 字 体 的 大 小 和 颜色 。 遗 憾 的 是 ， 这 些 
细节 已 经 超出 了 本 书 的 讨论 范围 ， 因 此 你 需要 学 习 关 于 ggplot2 的 图 书 (http://ggplot2.org/ 
book/) 才能 掌握 全 部 细节 。 如 果 为 了 满足 公司 或 期 刊 的 具体 要 求 ， 你 也 可 以 创建 属于 自己 
的 主题 。 


21.7 保存 图 形 


要 想 将 图 形 从 R 导入 你 的 最 终 报告 ， 主 要 有 两 种 方法 : ggsave() 和 knitr。ggsave() 可 以 将 
最 近 生 成 的 图 形 保存 到 磁盘 : 


ggplot(mpg, aes(displ, hwy)) + geom point() 
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ggsave("my-plot.pdf") 

#> Saving 6 x 3.71 in image 
如 果 没 有 指定 width 和 height, JBA ggsave() 就 会 使 用 当前 绘图 设备 的 尺寸 。 出 于 代码 重 
用 性 的 考虑 ， 最 好 还 是 指定 图 形 的 这 些 参数 。 
然而 ， 我 们 认为 你 通常 会 通过 R Markdown 生成 最 终 报告 ， 因 此 我 们 将 重点 介绍 你 在 生成 
图 形 时 应 该 了 解 的 一 些 重要 代码 段 选项 。 你 可 以 通过 说 明文 档 来 了 解 更 多 关于 ggsave() 的 
知识 。 


21.7.1 图 形 大 小 


TE R Markdown 中 ， 关 于 图 形 的 最 大 问题 是 如 何 确 定 其 大 小 和 形状 。 控 制图 形 大 小 的 选项 
主要 有 5 个 : fig.width. fig.height, fig.asp, out.width 和 out.height。 之 所 以 说 图 形 
大 小 是 一 个 难题 ， 是 因为 图 形 大 小 有 两 种 (R 生成 的 图 形 的 大 小 ， 以 及 插入 到 输出 文档 中 
的 图 形 的 大 小 ) ， 而 且 指定 图 形 大 小 的 方法 也 有 多 种 〈 即 高 度 、 宽 度 和 高 宽 比 : 三 者 任 选 
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我 们 只 使 用 以 上 5 种 选项 中 的 3 种 。 

我 们 发 现 ， 宽 度 一 致 的 图 形 是 最 令 人 赏心悦目 的 。 为 了 使 图 形 宽度 保持 一 致 ， 我 们 设置 

到 形 的 默认 参数 为 fig.width = 6 (6 英寸 ) 和 fig.asp = 0.618 (黄金 分 割 )。 在 单个 
代码 段 中 ， 我 们 只 调整 ftg.asp。 
我 们 使 用 out.width 控制 输出 图 形 的 大 小 ， 并 将 其 设置 为 行 宽 的 百分比 。 默 认 设 置 为 
out.width = "70%" 和 fig.align = "center"。 这 样 一 来 ， 图 形 既 不 会 占用 过 多 空间 ， 也 

` 会 显得 太 拥 挤 。 

如 果 想 在 一 行 中 放置 多 个 图 形 ， 可 以 将 out.width 设置 为 50% 以 放置 2 个 图 形 、 设 置 
为 33% 以 放置 3 个 图 形 ,或 者 设置 为 25% 以 放置 4 个 图 形 ， 同 时 还 要 设置 fig.align = 
"default"。 按 照 具体 的 说 明 方 式 ( 例 如， 是 要 展示 数据 还 是 要 展示 图 形 )， 我 们 也 会 根 
据 情况 调整 fig.width， 后 面 还 会 继续 讨论 这 点 。 

如 果 你 发 现 必须 睐 起 眼睛 才能 看 清 图 形 上 的 文本 ， 那 么 就 需要 调整 fig.width 参数 。 如 果 

fig.width 大 于 最 终 文档 中 的 图 形 的 尺寸 ， 那 么 文本 就 会 显得 过 小 ， 如 果 fig.width 小 于 

最 终 文档 中 的 图 形 的 尺寸 ， 那 么 文本 就 会 显得 过 大 。 一 般 来 说 ， 你 需要 试验 儿 次 才能 找到 

fig.width 和 最 终 文档 中 的 图 形 的 最 佳 比例 。 为 了 说 明 这 个 问题 ， 我 们 可 以 看 看 以 下 3 幅 

图 形 ， 它 们 的 fig.width 分 别 是 4、6 和 8。 
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2 3 4 5 6 
displ 


如 果 想 要 让 所 有 图 形 中 的 字体 都 保持 一 致 大 小 ， 那 么 只 要 设置 了 out.wtdth， 就 同时 还 需 
要 调整 fig.width， 使 其 与 默认 out.width 保持 同样 的 比例 。 例 如 ， 如 果 默 认 fig.width 为 
6, out.width 为 0.7， 那 么 当 设 置 out.width = "50%" 时 ， 你 需要 同时 将 fig.width 设置 为 
4.3 (6*0.5/0.7)。 


21.7.2 ”其 他 重要 选项 


当代 码 和 文本 混合 时 ， 就 像 本 书 一 样 ， 我 们 建议 你 设置 fig.show =“"hold"， 以 使 图 形 显示 
在 代码 后 面 。 这 样 做 的 好 处 是 ， 可 以 强制 使 用 解释 性 图 形 将 大 块 代码 分 解 成 更 小 的 部 分 。 


如 果 想 要 为 图 形 添加 说 明文 字 ， 可 以 使 用 fig.cap。 在 R Markdown 中 ， 这 样 做 会 将 图 形 
从 “内 联 ” 模 式 修改 为 “浮动 ”模式 。 

如 果 想 要 生成 PDF 格式 的 输出 文件 ， 使 用 默认 的 图 形 格式 即 可 ， 因 为 默认 格式 就 是 PDF。 
PDF 是 一 种 良好 的 默认 格式 ， 因 为 它 是 一 种 高 质量 的 向 量化 图 形 。 但 是 ， 如 果 图 形 中 包括 
几 千 个 数据 点 ， 那 么 生成 的 图 形 就 会 很 大 ， 速 度 也 会 非常 慢 。 这 时 可 以 设置 dev = "png" 
来 强制 使 用 PNG 图 形 格式 。 这 种 格式 的 图 形 质量 稍 差 ， 但 体积 更 小 。 

即使 通常 不 为 代码 段 添 加 标签 ， 但 为 生成 图 形 的 代码 段 取 名 也 是 一 种 非常 好 的 做 法 。 代 码 
段 标 签 可 以 作为 保存 在 磁盘 上 的 图 形 文件 的 名 称 ， 因 此 如 果 为 代码 段 取 了 名 字 ， 你 就 可 以 
更 容易 地 找 出 需要 的 图 形 ， 并 在 其 他 环境 中 继续 使 用 (换言之 ， 你 可 以 非常 迅速 地 将 一 个 
图 形 放 入 电子 邮件 或 推 文中 )。 


21.8 更 多 学 习 资 源 


学 习 更 多 相关 知识 的 最 好 去 处 绝对 是 ggplot2 教材 :《ggplot2: 数据 分 析 与 图 形 艺 术 》。 这 
本 书 更 加 深入 地 介绍 了 基础 理论 ， 而 且 使 用 了 更 多 的 示例 来 介绍 如 何 组 合 多 个 图 形 以 解决 
实际 问题 。 遗 憾 的 是 ， 这 本 书 没 有 免费 的 在 线 版 本 ， 但 你 可 以 在 https://github.com/hadley/ 
ggplot2-book 找到 其 源 代 码 。 

另 一 个 绝 好 资源 是 ggplot2 扩展 指南 网 站 (http:/www.ggplot2-exts.org/)。 这 个 站 点 列举 了 
很 多 ggplot2 扩展 包 ， 它 们 实现 了 新 的 几何 对 象 和 新 的 标 度 。 如 果 想 要 做 一 些 ggplot2 难以 
实现 的 事情 ， 不 妨 从 这 里 开始 。 
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A= 

22.1 简介 
迄今 为 止 ， 我 们 已 经 知道 了 R Markdown 可 以 生成 HTML 文档 。 本 章 将 简单 介绍 RR 
Markdown 的 一 些 其 他 类 型 的 输出 结果 。 设 置 R Markdown 文档 的 输出 类 型 的 方式 有 2 种 。 
(1) 修改 YAML 文件 头 可 以 进行 永久 性 设置 。 

title: "Viridis Demo" 

output: html_document 
(2) 手动 调用 rmarkdown: : render () 国 数 可 以 进行 临时 性 设置 。 


rmarkdown: :render( 
"diamond-sizes.Rmd", 
output_format = "word_document" 


) 
如 有 果 想 要 编程 实现 多 种 类 型 的 输出 ， 那 么 就 需要 使 用 这 种 设置 方式 。 


RStudio 中 的 knit 按钮 可 以 按照 output 域 中 列 出 的 第 一 种 格式 来 输出 文件 。 点 
旁 的 下 拉 菜 单 ， 也 可 以 生成 其 他 相应 格式 的 输出 。 

















E knit 按钮 





gi 


DIB FA Kit + 
@) Knit to HTML 
= Knit to PDF 
W] Knit to Word 


Knit with Parameters... 
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22.2 输出 选项 


每 种 输出 类 型 对 应 一 个 R 函数 ， 使 用 foo 或 pkg::foo 的 国 数 调用 形式 都 可 以 。 如 果 省 略 
pkg，R 会 默认 使 用 rmarkdown 包 。 知 道 输出 函数 的 名 称 是 非常 重要 的 ， 因 为 可 以 通过 国 
数 名 获取 帮助 。 例 如 ， 如 果 想 要 知道 可 以 在 htmL_document() 国 数 中 使 用 哪些 参数 ， 可 以 
使 用 ?rmarkdown: :html_document() 来 查看 帮助 。 


如 果 不 想 使 用 默认 参数 值 ， 可 以 使 用 扩展 的 output 域 。 例 如 ， 如 果 想 要 生成 一 个 带 有 浮动 
表格 内 容 的 htmL_document 文档 ， 可 以 设置 如 下 : 











output: 
html_document: 
toc: true 


toc_float: true 


其 至 还 可 以 提供 一 个 格式 列表 ， 以 生成 多 种 输出 : 














output: 
html_document: 
toc: true 


toc_float: true 
pdf_document: default 


如 果 不 想 覆 盖 任 何 默认 选项 ， 注 意 一 下 特殊 的 语法 。 


22.3 文档 


上 一 章 重点 介绍 了 默认 函数 htmL_document() 的 输出 ， 这 个 函数 还 有 几 个 基本 的 变 体 ， 可 
以 生成 不 同类 型 的 文档 。 
pdf_document 可 以 使 用 LaTeX (一 种 开源 的 文档 排版 系统 ) 生成 PDF 文档 。LaTeX 需 
要 安装 ， 如 果 没 有 安装 ，RStudio 会 提醒 你 。 
word_document 可 以 生成 Microsoft Word 文档 (.docx)。 
odt_document 可 以 生成 OpenDocument Text 文档 〈.odt) 。 
rtf_document 可 以 生成 Rich Text Format 文档 (.rtf)。 
md_document 可 以 生成 Markdown 文档 。 这 种 文档 本 身 不 是 很 有 用 ， 但 你 可 以 将 其 与 其 
他 系统 结合 起 来 使 用 ， 如 CMS 系统 或 实验 室 wiki。 
github_document 是 md_document 的 一 种 定制 版 本 ， 前 者 生成 的 文档 可 以 在 GitHub 上 分 享 。 


记 住 ， 当 为 决策 者 生成 文档 时 ， 你 应 该 在 setup 代码 段 中 修改 全 局 设置 ， 关 闭 默认 的 显示 
代码 选项 : 

knitr::opts_chunk$set(echo = FALSE) 
对 于 html_document 文档 ， 另 一 个 选项 可 以 让 代码 段 默 认 是 隐藏 的 ， 但 点 击 鼠 标 后 可 见 : 


output: 
html_document: 
code_folding: hide 
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22.4 笔记 本 

笔记 本 文件 是 由 htmL_document 的 变 体 htmL_notebook() 函数 生成 的 。 虽 然 这 两 种 国 数 生成 
的 文件 在 格式 上 非常 相似 ， 但 目的 不 同 。htmL_document 主要 用 于 与 决策 者 进行 沟通 ， 而 笔 
记 本 的 主要 用 途 则 是 与 其 他 数据 科学 家 协同 工作 。 由 于 目的 不 同 ，HTML 输出 文件 的 使 用 
方式 也 不 相同 。 这 两 种 HTML 输出 文件 都 会 包含 全 部 结果 ， 但 笔记 本 中 还 包括 完整 的 源 代 
码 。 这 意味 着 我 们 可 以 通过 两 种 方式 使 用 由 htmL_notebook() 生成 的 .nb.html 文件 。 


你 可 以 使 用 网 页 浏览 器 来 查看 这 种 文件 和 分 析 结 果 。 与 htmL_document 不 同 ， 这 种 文件 
始终 包含 了 生成 文件 的 源 代 码 的 一 个 骨 入 式 副 本 。 

你 还 可 以 在 RStudio 中 编辑 这 种 文件 。 当 打开 一 个 .nb.html 文件 时 ，Rstudio 会 自动 重 
建生 成 它 的 .Rmd 文件 。 将 来 你 还 可 以 在 这 种 文件 中 包含 支持 文件 (如 .csv 数据 文件 )， 
需要 时 可 以 自动 提取 出 这 些 支持 文件 。 


通过 电子 邮件 发 送 .nb.html 文件 是 与 同行 分 享 分 析 结 果 的 一 种 简单 方式 。 但 是 ， 如 果 别 
人 想 修改 这 个 文件 ， 事 情 就 变 得 不 妙 了 。 如 果 出 现 了 修改 文件 的 需求 ， 是 时 候 学 习 Git 和 
GitHub 了 。 学 习 Git 和 GitHub 的 初期 会 非常 痛苦 ， 但 合作 带 来 的 回报 是 非常 丰厚 的 。 正 
如 我 们 在 前 面 提 到 的 ，Git 和 GitHub 已 经 超出 了 本 书 的 讨论 范围 ， 但 如 果 你 已 经 开始 使 用 
它们 ， 我 们 会 给 你 一 个 非常 有 用 的 提示 : 需要 同时 使 用 htmL_notebook 和 github_document 
两 种 输出 形式 。 

output: 


html_notebook: default 
github_document: default 


html_notebook 可 以 在 本 地 预览 ， 还 可 以 通过 电子 邮件 进行 分 享 。github_document 可 以 创 


建 一 个 最 简单 的 MD 文件 ， 你 可 以 将 其 提交 到 Git 中 。 你 可 以 清晰 地 看 到 分 析 结 果 (不 只 
是 代码 ) 是 如 何 随时 间 的 推移 而 不 断 发 展 的 ，GitHub 会 在 网 上 很 好 地 呈现 出 这 个 过 程 。 


22.5 演示 文稿 
R Markdown 也 可 以 生成 演示 文稿 。 与 Keynote 或 PowerPoint 这 样 的 工具 相 比 ，R 
Markdown 没有 那么 多 视觉 效果 和 控制 方式 ， 但 它 可 以 自动 将 R 代码 的 结果 插入 演示 文稿 ， 
这 样 可 以 节省 大 量 时 间 。 制 作 演示 文稿 的 方法 是 将 内 容 分 为 多 个 幻灯 片 ， 在 每 个 一 级 标题 
(#) 或 二 级 标题 (##) 处 开始 一 个 新 幻灯 片 。 你 也 可 以 不 使 用 标题 来 划分 幻灯 片 ， 而 是 通 
过 插入 一 条 水 平分 隔 线 (***) 来 创建 一 张 新 的 幻灯 片 。 
R Markdown 可 以 生成 3 种 内 置 格式 的 演示 文稿 。 
ioslides_presentation 

ioslides 格式 的 HTML 演示 文稿 。 






















































































slidy_presentation 
W3C Slidy 格式 的 HTML 演示 文稿 。 
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beamer_presentation 

LaTeX Beamer 格式 的 PDF 演示 文稿 。 
此 外 ， 由 其 他 R 包 提 供 的 另外 2 种 常用 的 演示 文稿 格式 如 下 所 示 。 
revealjs::revealjs_presentation 

reveal.js 格式 的 HTML 演示 文稿 。 需 要 安装 revealjs 包 。 


rmdshower 
提供 了 shower 演示 3 引擎 的 一 个 包装 器 。 


22.6 仪表 盘 
仪表 盘 是 沟通 大 量 数据 的 一 种 快速 而 又 直观 的 有 效 方法 。flexdashboard 包 可 以 非常 轻松 地 
使 用 R Markdown 文件 来 创建 仪表 盘 ， 它 确定 了 使 用 标题 控制 仪表 盘 布局 的 约定 。 


° 每 个 一 级 标题 (#) 都 可 以 在 仪表 盘 中 创建 一 个 新 页 。 
° 每 个 二 级 标题 (##) 都 可 以 创建 一 个 新 列 。 
° 每 个 三 级 标题 (aet) 都 可 以 创建 一 个 新 行 。 


例如 ， 要 想 创建 以 下 这 个 仪表 盘 : 








ece ~/Documents/r4ds/r4ds/rmarkdown-demos/11-dashboard.html 


Z Open in Browser 





Diamonds distribution dashboard 


Carat The largest diamonds 


Show 10 Bentries Search: 


0- carat cut color price 
501 Fair 18018 
j- = 
° i 2 3 5 


45 Fair 





413 Fair 


401 Premium 


4 VeryGood 





3.67 Premium 


i 

2 

3 

4 

5 401 Premium 
6 

7 

8 365 Fair 
9 


351 Premium 


x < m e= = w == m w | < 
g 
š 


Colour 10 35 Ideal 





Showing 1 to 10 of 100 entries 


= RIHMEUB u 
È Ë i š 


可 以 使 用 以 下 代码 : 





title: "Diamonds distribution dashboard" 
output: flexdashboard::flex_dashboard 


```(r setup, ¿include = FALSE} 
Library(ggpLot2) 
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library(dplyr) 
knitr::opts_chunk$set(fig.width = 5, fig.asp = 1/3) 
## Column 1 


### Carat 


"Heg 
ggplot(diamonds, aes(carat)) + geom histogram(binwidth = 0.1) 


### Cut 


`` (r) 
ggplot(diamonds, aes(cut)) + geom_bar() 


### Color 


r} 
ggplot(diamonds, aes(color)) + geom_bar() 


## Column 2 


### The largest diamonds 


`` (r) 
diamonds %>% 
arrange(desc(carat)) %>% 
head(100) %>% 
select(carat, cut, color, price) %>% 
DT::datatable() 


flexdashboard 还 提供 了 一 些 简 单 工具 ， 用 于 创建 工具 栏 、 标 签 页 、 输 入 框 和 标尺 。 要 想 学 
习 更 多 关于 flexdashboard 的 知识 ， 可 以 访问 http://rmarkdown.rstudio.com/flexdashboard/。 


22.7 ZANA 
HTML 格式 (文档 、 笔 记 本 、 演 示 文稿 或 仪表 盘 ) 的 所 有 文件 都 可 以 包含 可 交互 组 件 。 








22.7.1 htmlwidgets 


HTML 是 一 种 可 交互 的 格式 ， 要 想 利用 这 种 交互 性 ， 你 可 以 使 用 htmlwidges， 这 是 能 够 生 
成 HIML 可 视 化 元 素 的 一 组 R 函数 。 例 如 ， 它 可 以 生成 以 下 的 leaflet 地 图 。 如 果 在 浏览 
器 上 查看 这 一 页 ， 就 可 以 对 地 图 进行 拖 动 、 放 大 、 缩 小 等 操作 。 显 然 ， 不 能 对 图 书 进行 这 
种 操作 ， 因 此 rmarkdown 自动 插入 了 一 张 静 态 的 屏幕 截图 : 
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library(leaflet) 

leaflet() %>% 
setView(174.764, -36.877, zoom = 16) %>% 
addTiles() %>% 
addMarkers(174.764, -36.877, popup = "Maungawhau" ) 


Glen 










À ' i 2 

Leaflet | @ OpenStreetMap contributors, CC-BY-SA 

htmlwidgets 的 优势 是 ， 无 须 了 解 任何 关于 HTML 和 JavaScript 的 知识 就 可 以 使 用 它们 。 因 
为 所 有 细 贡 都 封装 在 包 中 ， 所 以 根本 不 需要 关心 细 市 。 

以 下 各 包 都 可 以 提供 htmlwidgets。 

。 dygraphs 可 以 实现 交互 式 的 时 间 序 列 可 视 化 。 

。 DT 可 以 实现 交互 式 表 格 。 

。 rthreejs 可 以 实现 交互 式 三 维 图 表 。 

。 DiagrammeR 可 以 实现 示意 图 (如 流程 图 和 简单 的 节点 关联 图 )。 

要 想 学 习 更 多 关于 htmlwidgets 的 知识 或 查看 提供 htmlwidgets 的 完整 R 包 列 表 ， 可 以 访问 
http://www.htmlwidgets.org/。 


22.7.2 Shiny 


htmlwidgets 提供 了 客户 端的 交互 性 一 一 所 有 交互 都 发 生 在 浏览 器 中 ， 与 R 无 关 。 这 种 方式 
有 很 明显 的 优点 ， 因 为 你 可 以 自由 地 分 发 HTML 文件 ， 不 用 考虑 与 R 的 连接 。 但 这 种 方 
式 的 基本 局 限 性 在 于 ， 所 有 功能 都 要 依靠 HTML 和 JavaScript 来 实现 。 实 现 交 互 性 的 另 一 
种 方式 是 使 用 Shiny， 这 个 包 可 以 使 用 R 代码 创建 交互 元 素 ， 而 不 用 依靠 JavaScript, 


如 果 想 在 RMarkdown 文档 中 调用 Shiny 代码 ， 需 要 在 文件 头 中 添加 runtime: :shiny: 


title: "Shiny Web App" 
output: html_document 
runtime: shiny 
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然后 我 们 可 以 使 用 “输入 ”函数 向 文档 中 添加 交互 元 素 : 
library(shiny) 


textInput("name", "What ls your name?") 

numericInput("age", "How old are you?", NA, min = 0, max = 150) 
接 下 来 ， 我 们 可 以 使 用 input$name 和 inputsage 来 引用 交互 元 素 的 值 ， 如 果 值 发 生 了 改 
变 ， 使 用 这 些 值 的 代码 会 自动 重新 运行 。 




















What is your name? 
How old are you? 


我 们 无 法 在 这 里 展示 一 个 实际 的 Shiny 应 用 ， 因 为 Shiny 的 交互 发 生 在 服务 器 端 。 这 意味 
着 你 可 以 在 不 使 用 JavaScript 的 情况 下 编写 交互 式 应 用 ， 但 需要 一 个 服务 器 来 运行 这 个 应 
用 。 这 就 导致 了 一 个 逻辑 问题 ，Shiny 应 用 需要 一 个 Shiny 服务 器 才能 在 线 运行 。 当 你 在 
自己 的 计算 机 上 运行 Shiny 应 用 时 ，Shiny 会 自动 建立 一 个 Shiny 服务 器 ， 但 如 果 你 想 将 这 
种 交互 式 应 用 在 网 上 公之于众 ， 就 需要 面向 公众 的 一 个 Shiny 服务 器 。 这 就 是 使 用 Shiny 
时 需要 考虑 的 一 个 基本 问题 : 可 以 在 Shiny 文件 中 实现 R 的 所 有 功能 ， 但 代价 是 需要 运行 
R 的 一 个 服务 器 。 


要 想 学 习 更 多 关于 Shiny 的 知识 ， 可 以 访问 http://shiny.rstudio.com/。 


22.8 网 站 
如 果 再 有 一 点 基础 设施 ， 我 们 还 可 以 使 用 R Markdown 生成 一 个 完整 的 网 站 。 


。 将 你 的 .Rmd 文件 放 进 一 个 单独 的 目录 。index.Rmd 就 可 以 作为 网 站 的 主页 。 
。 添加 一 个 名 为 _site.yml 的 YAML 文件 来 提供 站 点 导航 。 例 如 : 


Name: "my-website" 
navbar: 
title: "My Website" 
left: 
- text: "Home" 
href: index.html 
- text: "Viridis Colors" 
href: 1-example.html 
- text: "Terrain Colors" 
href: 3-inline.html 


运行 rmarkdown::render_site() 国 数 来 建立 site 目录 ， 这 个 目录 中 包含 了 一 个 独立 静态 网 
站 所 需 的 所 有 文件 。 你 还 可 以 使 用 RStudio Project 来 建立 网 站 目录 ，RStudio 会 在 IDE 中 
添加 一 个 Build 标签 页 ， 你 可 以 使 用 这 个 标签 页 来 建立 和 预览 自己 的 站 点 。 


要 想 学 习 更 多 这 方面 的 知识 ， 可 以 访问 https://rmarkdown.rstudio.com/rmarkdown websites.html。 
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229 ”其 他 类 型 





过 http://bit.ly/CreatingNewFormats 上 的 操作 指南 创建 


其 他 包 可 以 生成 更 多 输出 类 型 。 
bookdown 包 可 以 使 得 编写 图 书 更 加 容易 ， 比 如 编写 像 本 二 








多 这 样 的 一 本 图 











Bo RHE 








了 解 更 多 ， 可 以 阅读 谢 益 辉 的 著作 Authoring Books with R Markdown。 当 然 ， 这 本 书 也 


是 通过 bookdown 编写 的 。R 社区 中 有 很 多 利用 bookdown 编写 的 图 书 。 


prettydoc 包 提 供 了 具有 多 个 漂亮 主题 的 轻 量 级 文档 格式 。 
rticles 包 可 以 将 R Markdown 文件 编译 成 一 些 科 学 杂志 要 求 的 特殊 格式 。 


要 想 获得 更 多 格式 的 列表 ， 可 以 访问 http://rmarkdown.rstudio.com/formats.html。 你 也 可 以 通 








22.10 ”更 多 学 习 资 源 


如 果 想 要 获取 更 多 知识 ， 以 使 用 不 同类 型 的 输 
资源 。 








自己 的 格式 。 


进行 有 效 沟通 ， 那 么 我 们 推荐 以 下 学 习 


如 果 想 要 提高 演示 和 表达 能 力 ， 我 们 推荐 你 阅读 Neal Ford, Matthew McCollough 和 


Nathaniel Schutta 所 著 的 Presentation Patterns。 这 本 








套 有 效 的 模式 ， 可 以 帮助 你 提高 自己 的 演示 和 表达 能 力 。 
如 果 想 要 进行 学 术 讨 论 ， 我 们 推荐 你 阅读 一 下 Leek group guide to giving talks 这 本 书 。 

虽然 我 们 没有 亲身 体验 过 ， 但 Matt McGarrity 关于 公开 演讲 的 在 线 课程 (https://www. 
coursera.org/learn/public-speaking) 确实 具有 良好 的 口碑 。 
如 果 想 要 创建 大 量 仪表 盘 ， 可 以 阅读 Stephen Few 所 著 的 Information Dashboard Design: 





The Effective Visual Communication of Data。 这 本 


而 不 只 是 虚 有 其 表 的 仪表 盘 。 





会 











帮助 你 创建 真正 有 价值 的 仪表 盘 ， 


提供 了 (从 低级 到 高 级 的 ) 一 整 





平面 设计 知识 经 常 有 助 于 人 们 想法 的 有 效 沟 通 。《 写 给 大 家 看 的 设计 书 》 是 非常 好 的 一 

















本 入 门 级 图 书 。 











注 


1: 全 球 销量 百 万 册 的 设计 入 门 书 , 简洁 实用 , 详细 介绍 可 见 图 














book/1551。 一 一 编者 注 


灵 社 区 本 











BE 4 版 的 介绍 页 画 











: ituring.com.cn/ 
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R Markdown 工 作 流 





我 们 在 前 面 讨论 过 一 个 基本 的 工作 流 ， 首 先 说 明了 如 何在 控制 台中 交互 地 使 用 R 代码 ， 
然后 介绍 了 脚本 编辑 器 的 功能 。R Markdown 将 控制 台 和 脚本 编辑 器 结合 在 一 起 ， 既 可 以 
进行 交互 式 数据 探索 ， 也 可 以 长 久保 存 代码 。 你 可 以 在 一 个 代码 段 内 快速 欠 代 ， 先 修改 代 
码 ， 然 后 使 用 Ctrl+Shift+Enter 重新 运行 代码 。 如 果 愿 意 的 话 ， 你 还 可 以 继续 添加 新 的 代 
码 段 。 


R Markdown 的 重要 性 还 在 于 ， 它 可 以 将 文本 和 代码 紧密 地 集成 在 一 起 。 这 使 得 它 既 可 以 
开发 代码 ， 又 可 以 记录 你 的 想法 ， 是 一 种 非常 棒 的 分 析 式 笔记 本 。 自 然 科 学 研究 中 一 般 都 
会 有 个 实验 记录 本 ,分 析 式 笔记 本 的 一 些 用 途 与 实验 记录 本 是 基本 相同 的 。 


。 记录 你 做 了 什么 ， 以 及 为 什么 要 这 样 做 。 不 管 记 忆 力 多 么 强大 ， 如 果 不 进行 记录 ， 你 总 
会 有 忘记 重要 事情 的 时 候 。 好 记性 不 如 烂 笔头 ! 

° 帮助 你 进行 更 加 续 密 的 思 芳 。 如 果 能 在 工作 过 程 中 随时 记录 想法 并 不 断 进行 反思 ， 那 么 
就 更 有 可 能 将 分 析 工 作 做 得 更 好 。 在 最 后 归纳 分 析 结 果 以 便 与 他 人 分 享 时 ， 这 些 记录 还 
可 以 节省 你 大 量 的 时 间 。 

。 帮助 人 们 理解 你 的 工作 。 数 据 分 析 通 常 不 是 一 个 人 的 事情 , 你 经 常会 作为 团队 中 的 一 员 。 
实验 记录 本 不 但 可 以 告诉 同事 或 同 实验 室 的 人 你 做 了 哪些 工作 ， 还 可 以 告诉 他 们 你 为 什 
么 要 这 样 做 。 

有 效 使 用 实验 记录 本 的 一 些 成 熟 经 验 完全 可 以 推广 到 分 析 式 笔记 本 上 。 根 据 自己 的 亲身 体 

会 ， 并 结合 Colin Purrington 关于 实验 记录 本 的 意见 ， 我 们 给 出 了 如 下 一 些 建议 。 

。 确保 每 个 笔记 本 都 有 一 个 描述 性 标题 和 一 个 有 助 于 记忆 的 文件 名 ， 并 在 第 1 段 中 简要 地 
介绍 一 下 这 项 分 析 的 主要 目的 。 

。 使 用 YAML 文件 头 中 的 日 期 域 来 记录 开始 使 用 这 个 笔记 本 的 日 期 : 


date: 2016-08-23 
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使 用 ISO 8601 标准 的 YYYY 一 MM 一 DD 格式 来 避免 歧义 。 即 使 通常 不 使 用 这 种 格式 的 
日 期 ， 你 也 一 定 要 这 样 做 ! 


。 对 一 个 分 析 思 路 花费 大 量 时 间 后 ， 如 果 发 现 还 是 走 入 了 死胡同 ， 此 时 不 要 丢弃 它 。 进 行 
简短 的 笔记 ， 记 录 为 什么 会 失败 ， 并 保存 在 笔记 本 中 。 如 果 未 来 的 某 个 时 刻 回 过 头 来 再 
进行 这 项 分 析 时 ， 你 就 可 以 避免 重 蹈 履 国 。 

。 一 般 来 说 ,我们 不 使 用 R 进行 数据 了 录入。 但 如 果 你 需要 记录 一 小 段 数据 的 话 ， 可 以 使 
用 tibble::tribble() 国 数 来 录入 ， 它 非常 简单 直观 。 

。 如 果 在 某 个 数据 文件 中 发 现 了 一 个 错误 ， 千 万 不 要 直接 修改 ， 而 是 应 该 通过 编写 代码 来 
修改 错误 值 ， 并 解释 为 什么 要 进行 这 个 修改 。 

。 在 结束 一 天 的 工作 前 , 请 确认 你 的 笔记 本 可 以 正确 生成 (如 果 使 用 了 缓存 , 一 定 要 清除 ) 。 
这 样 可 以 让 你 趁 热 打铁 地 修改 笔记 本 中 可 能 存在 的 错误 。 

。 如 果 想 让 代码 长 期 可 重用 (也 就 是 说 ， 一 个 月 或 一 年 后 这 段 代 码 依然 可 以 运行 )， 你 需 
要 跟踪 代码 中 使 用 的 R 包 的 版 本 更 新 信息 。 一 种 非常 好 的 方法 是 使 用 packrat 包 ， 它 可 
以 将 R 包 保 存 到 你 的 项 目 目录 中 。 另 一 种 方法 是 使 用 checkpoint 包 ， 它 可 以 在 一 个 特定 
日 期 重新 安装 所 有 可 用 的 及 包 。 还 有 一 种 很 简便 的 方法 , 但 是 既 不 够 正规 , 也 不 够 优雅 ， 
就 是 在 笔记 本 中 加 入 运行 sessionInfo() 函数 的 一 个 代码 段 ， 虽 然 这 样 不 能 很 方便 地 更 
新 R 包 ,但 至 少 可 以 让 你 知道 这 些 R 包 现 在 的 版 本 。 

。 你 的 整个 职业 生涯 中 会 创建 很 多 很 多 分 析 式 笔记 本 。 应 该 如 何 管理 它们 ， 才 能 在 以 后 找 
到 需要 的 笔记 本 呢 ? 我 们 的 建议 是 ， 将 它们 保存 在 一 个 独立 的 项 目 中 ， 并 使 用 一 种 恰当 
的 命名 模式 。 
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作者 简介 

Hadley Wickham 是 RStudio 首席 科学 家 、R Foundation 资深 成 员 。 他 创建 的 很 多 工具 (6 
括 计算 工具 和 认 知 工具 ) 使 得 数据 科学 变 得 更 容易 、 更 快速 ， 同 时 也 更 有 趣 。 他 的 作品 包 
括 用 于 数据 科学 的 多 个 软件 包 (tidyverse、ggplot2、dplyr、purrr、readr 等 )， 以 及 一 些 工 
具 软 件 (roxygen2、testthat、devtools)。 此 外 ， 他 还 是 作家 、 教 育 者 ， 同 时 也 是 不 懈 推 动 
使 用 R 进行 数据 科学 的 活跃 演讲 者 。 

Garrett Grolemund 是 任职 于 RStudio 的 统计 学 家 、 教 师 和 R 开发 者 。 他 开发 了 著名 的 民 
é lubridate， 并 著 有 《R 语言 入 门 与 实践 》 一 书 。 


Garrett 是 DataCamp.com 和 oreilly.com/safari 中 广 受 欢迎 的 一 名 及 语言 导师 ， 曾 受 邀 在 
很 多 公司 讲授 及 语言 和 数据 科学 ， 这 些 公司 包括 Google, eBay, Roche 等 。Garrett 在 
RStudio 组 织 了 各 种 在 线 研讨 会 和 专题 讨论 会 ， 并 编写 了 多 个 备 受 称赞 的 了 语言 速 查 表 。 


封面 简介 

本 书 封面 上 的 动物 是 一 只 欧 鹦 鸥 (学 名 : Strigops habroptilus) ， 它 是 原 产 于 新 西 兰 的 一 种 
不 会 飞 的 大 型 鸟 类 。 成 年 忠 岗 下 可 以 长 到 64 厘米 高 ， 体 重 可 达 4 千 克 。 它 们 的 羽毛 通常 
为 黄 绿色 ,但 个 体 间 的 差异 非常 大 。 强 岗 赵 是 夜行 动物 ， 依 靠 灵 敏 的 嗅觉 在 夜间 活动 。 虽 
然 没 有 飞行 能 力 ， 但 牙 鹦 鸥 具有 强 半 的 双 腿 ， 这 使 得 它们 的 奔跑 能 力 和 攀 疏 能 力 远 远 强 于 
多 数 鸟 类 。 

36 B LÝRA% kakapo， 这 个 名 称 来 自 于 新 西 兰 原 住民 毛利 人 的 语言 。 获 网 玖 是 毛利 文化 的 
重要 组 成 部 分 ， 既 是 毛利 人 的 食物 来 源 ， 也 是 毛利 神话 的 一 部 分 。 绝 网 殉 的 皮 和 羽毛 还 可 
以 用 来 制作 斗 符 和 披肩 。 

因为 一 些 食肉 动物 在 欧洲 殖民 运动 期 间 被 带 到 了 新 西 兰 ， 所 以 级 岗 殉 现在 濒临 灭绝 ， 现 存 
数量 已 不 足 200 只 。 新 西 兰 政府 已 经 在 没有 食肉 动物 的 3 个 岛屿 上 建立 了 特别 保护 区 ， 以 
WRR A EAE, 

O'Reilly 图 书 封面 上 的 很 多 动物 都 是 濒危 物种 ， 它 们 对 整个 世界 都 很 重要 。 如 果 你 想 为 保 
护 动物 做 些 贡 献 ， 请 访问 animals.oreilly.com。 











封面 照片 来 自 Wood's Animate Creations, 
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技术 改变 世界 RENANE 


R 语言 实战 (第 2 版 ) 






语言 o 学 懂 分 析 ， 玩 转 大 数据 
实战 $ 用 R 轻 松 实现 数据 控 握 、 数 据 可 视 化 
4 从 实际 数据 分 析出 发 ， 全 面 掌握 R 编 程 
4 新 增 预 测 性 分 析 、 简 化 多 变量 数据 等 近 200 页 内 容 


FEAA w 


ORBE 





g utama 作者 : Robert |. Kabacoff 
一 一 一 译 者 : 于 小 宁 ， 刘 搬 芯 ， 黄 俊文 等 


精通 机 器 学 习 : 基于 R (第 2 版 ) 


令 利用 R 包 轻松 应 用 机 器 学 习 方 法 
令 展示 各 类 机 器 学 习 方 法 的 优势 与 潜在 问题 
令 技术 与 理论 并 重 ， 通 过 丰富 的 商业 案例 实现 机 器 学 习 高 级 概念 


作者 : Cory Lesmeister 
译 者 : [ORA 





Python 编程 : 从 入 门 到 实践 





令 Amazon 编程 入 门类 榜首 图 书 
令 从 基本 概念 到 完整 项 目 开 发 ， 帮 助 零 基础 读者 迅速 掌握 Python 编程 


作者 : Eric Matthes 
译 者 : REG 
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微 信 连 接 





回复 “R” 查 看 相关 书 单 


© 
微 博 连 接 
关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


° 
QQ 连接 


图 灵 读 者 官方 群 I: 218139230 
图 灵 读 者 官方 群 [I[: 164939616 














图 灵 社 区 
iTuring.cn 
在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 





OREILLY 





M: 3 4 
R 数 据 科 学 
R 社 区 领军 人 物 作品 ， 从 典型 数据 科学 项 目 所 需 工 具 模 型 着 手 ， 带 领 读 
者 掌握 R 语 言 精华 ， 学 会 熟练 使 用 多 种 工具 解决 各 种 数据 科学 难题 。 


m 探索 一 一 以 可 视 化 作为 R 编 程 起 点 ， 再 进行 重要 变量 选取 、 筛 选 
关键 观测 等 重要 数据 操作 ， 并 对 数据 提出 问题 且 找 到 答案 。 


m 处 理 一 一 导入 、 整 理 并 转换 数据 。 

m 编程 一 一 管道 操作 的 工作 原理 和 替代 方式 ， 函 数 使 用 规则 ， 如 何 
实现 迭代 。 

m 模型 一 一 深刻 理解 模型 背后 的 数学 理论 和 数据 ， 直 观 认识 统计 模 
型 工作 原理 。 


m 沟通 一 一 学 会 RMarkdown， 让 人 们 快速 轻松 理解 你 的 工作 。 


哈 德 利 . 威 克 姆 (Hadley Wickham), RStudio 首 席 科 学 家 ， 统 计 学 
家 ， 斯 坦 福 大 学 、 奥 克 兰 大 学 、 莱 斯 大 学 兼职 统计 学 教授 。 已 被 下 
载 数 百 万 次 的 ggplot2 等 多 款 知名 R 包 的 开发 者 ， 一 直 致 力 于 让 普罗 
大 众 更 容易 上 手数 据 分 析 ， 被 R 社 区 誉 为 “改变 了 R 的 人 ” 。 另 著 有 
《R 包 开发 》 等 书 。 


加 勒 特 . 格 罗勒 芒 德 (Garrett Grolemund) ，RStudio 数 据 科 学 家 ， 知 名 
R 培 训 师 ， 曾 受 邀 在 Google、eBay 等 诸多 公司 讲授 R 语 言 和 数据 科学 ， 
在 DataCamp 开 授 的 R 相 关 课 程 备 受 R 开 发 者 喜爱 。 另 著 有 《R 语 言 入 门 
与 实践 》。 


“Hadley Wickham 是 数据 科学 


领域 内 的 传奇 人 物 ， 发 明了 一 

套 全 新 的 数据 分 析 方 法 。 他 与 

Garrett Grolemund 合 著 的 这 本 

书 详细 阐明 了 这 种 新 方法 ， 被 
数据 分 析 者 奉 为 圣经 。” 

一 一 Roger D. Peng 

约翰 霍 普 金 斯 大 学 教授 


“建议 初次 接触 R 的 人 都 看 看 这 本 


书 中 的 R 代 码 。 作 者 详细 说 明了 
在 R 中 处 理 数据 的 基本 原则 。” 
—.J.Allaire 

RStudio 创 始 人 、CEO 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


